ブックマーク / terazzo.hatenadiary.org (1)

  • [Java]IVSの異体字を元の字と同一視して比較する - terazzoの日記

    IVSと正規化について - Togetter 正直あまりちゃんと付いていけてないんだけど、結局のIVS入りの文字列をVS抜きのものとを同一と看做してワンメソッドで比較するような仕組みはJava 6でも入ってないらしい。 リンク先より引用: @ogwata @moji_memo IVSがそもそもUnicode正規化の対象外なのだと思います。互換漢字を統合漢字にする合成除外とは違って、IVSを基底文字だけにするのならVSを削除しちゃえばいいだけですし。 ということでVSを削除するコードを書いてみたり、異体字を実際に表示してみたりした。 予備知識 JavaのStringとcodePointの扱いについてはこのへんを参照。 IVSについてはUTS #37: Ideographic Variation Databaseを参照。統合漢字(UNIFIED IDEOGRAPH)の後ろにU+E0100〜U+

    [Java]IVSの異体字を元の字と同一視して比較する - terazzoの日記
    mtzky
    mtzky 2011/03/16
  • 1