タグ

ブックマーク / tech.albert2005.co.jp (1)

  • 文字コード地獄秘話 第3話:後戻りの効かないUnicode正規化 - ALBERT Engineer Blog

    はじめに おっと、またまた会いましたね。文字コードおじさんです。前回、Unicodeにおける結合文字列という話題を取り上げました。思わず「いやあ、結合文字列は強敵でしたね」と口走りそうになる代物でしたが、今回はそれに関連したUnicode正規化のお話をしてみようと思います。 ざっと前回のおさらい 詳しいことは前回の記事をご覧いただくとして、 最低限の用語についてざっくりおさらいしておきましょう 結合文字列 複数の文字を使って見かけ上の1文字を表現する仕組み 「て(U+3066)」 の後に、 「濁点(U+3099)」 を配置することによって 「で」 を表現する 合成済み文字 「で(U+3067)」などのあらかじめ合成されている文字 Unicode正規化 結合文字列を合成済みに統一したり、合成済み文字を結合文字列にしたりする処理 少々語弊がありますが、イメージがつかめればOKです。 正規化の4

  • 1