タグ

610 正規表現と92 CHARSETに関するsatoschiのブックマーク (2)

  • OS間で気をつけるべき正規表現 - DTPab

    【訂正 2018.9.4】 正規表現の書き間違いを訂正しました(赤字部分)。 今回はスクリプトからちょっと離れまして、正規表現のお話です。 僕の勤める会社では、Mac環境とWin環境の両方があり、OSを跨いで作業することもしばしばあります。そんなときに、用意した正規表現スタイルがMacでは適用されるのにWinでは適用されない(もしくはその逆)ということがありました。割と知られているとは思うのですが、注意喚起も含めてご報告です。 段落スタイルを作成し、ひとつめの正規表現スタイルに「U+2212のマイナス記号」と「U+301Cの波ダッシュ」の文字カラーをマゼンタにするもの、ふたつめに「U+FF0Dのマイナス記号」と「U+FF5Eの波ダッシュ」の文字カラーをシアンにするものを登録します。 これを実際に適用すると下図のようになります。 このように見た目はほとんど変わらない文字ですが、正規表現ではし

    OS間で気をつけるべき正規表現 - DTPab
  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • 1