Unicodeに関するnanto_viのブックマーク (1)

  • 結合文字列を合成する安全な方法を考える - Qiita

    結合文字列をUnicode正規化で合成する方法の危険性 では、結合文字列を解消する方法としてNFCを適用することの危険性を説明しました。それではどうしたらいいのかをここで考えてみます。 考察 結合文字列を解消する現実的な方法は「Composition Exclusionを処理対象から除いてNFCを適用する」だと思います。そこでComposition Exclusionを正規表現にしてみたのがこちら。 これをもとにしてhappyscriptさんが書いてくれたPerlのスクリプトがこちら。 #!/usr/bin/perl use strict; use Unicode::Normalize; use utf8; #-ソースがUTF8だという宣言 use Encode; binmode STDOUT, ":utf8"; #-画面に出力したい文字コード binmode STDERR, ":utf8

    結合文字列を合成する安全な方法を考える - Qiita
  • 1