タグ

正規表現に関するmalmacのブックマーク (3)

  • あるUnicodeの文字列が中国語かどうかを判定したい - 機略戦記

    このエントリを書いた人間はUnicodeや中国語について素人です。 このエントリに載っている情報は誤っている可能性があります。 結論 厳密では無いが、Unicode Han Database(Unihan)を参照して広東語または北京語の発音を持ちかつ音読みまたは訓読みの発音を持たない文字が含まれているかどうかで判定できそうだ。 概要 最初に試みた方法: 「/[ぁ-ん]/にマッチする文字列を取り出すことでひらがなのみが取り出せるように、中国語のみを正規表現で取り出せないか」。 Unicode上で漢字は、中国語・日語・朝鮮語で使われている漢字をひとまとめにしたCJK統合漢字という概念で扱われているので無理だった。 https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97 Unihanには、ある漢字の読みの情報が

    あるUnicodeの文字列が中国語かどうかを判定したい - 機略戦記
  • 正規表現で日本語が入るようにする方法 - arc tech blog

    文字列のチェックの際、正規表現を使用し不正な文字列か判定することは多いと思います。 ここでは、日語のひらがなや漢字などをチェックする正規表現をまとめていきたいと思います。 またこれらを実装する前に以下のサイトで正規表現を確認してから実装するとスムーズな開発が可能です weblabo.oscasierra.net 文字判定に使用する正規表現 文字 正規表現 ひらがな ^[ぁ-んー]*$ カタカナ(全角) ^[ァ-ヶー]*$ カタカナ(半角) ^[ア-ン゙゚]*$ 漢字 ^[一-龠]*$ 半角数字 ^[0-9]*$ 英語(小文字) ^[a-z]*$ 英語(大文字) ^[A-Z]*$ 記号 ^[!"#$%&'()*+-.,\/:;<=>?@[\]^_`{|}~]*$ スペース(半角) ^[ ]+ スペース(全角) ^[ ]+ 複数の文字種に対応する正規表現 またこれらは複合的に使用することがで

    正規表現で日本語が入るようにする方法 - arc tech blog
    malmac
    malmac 2022/10/17
    んァ-ヶア-ン゙゚一-龠][正規表現]*$”
  • Visual Studio Code 重複行を削除する - Qiita

    目的 重複したテキストデータを削除したい。 手順 1. 行をソートする Command + A でソートする行を範囲選択する Command + Shift + P >Sort Lines Ascending 昇順または降順に並び替える 2. 正規表現で重複行を削除する 検索窓を表示する: Command + F 正規表現を使用する: Command + option + R 検索ボックスへ入力: (^.*$)(\n(^\1$)){1,} 置換ボックスへ入力: $1 すべて置換: Command + option + Enter キャプチャ動画 補足 (^.*$)\n(^\1$)、 $1 の正規表現の補足です。 まず、正規表現では括弧で囲われた部分は変数に代入されます。 括弧の数に応じて $1,$2,$3... と代入されていきます。 \1 は前方で記憶した文字列をマッチしています。 改行

    Visual Studio Code 重複行を削除する - Qiita
  • 1