2011年3月16日のブックマーク (3件)

  • J2SE 5.0 Tiger 虎の穴 Unicode 4.0 の補助文字のサポート

    ご存知でしたが、Unicode では char では収まらない文字があることを。 Java では言語が発表された当初から内部コードとして Unicode を採用してきました。もちろん、char は Unicode で文字が表される 16 bit になっていました。 だから、Unicode と char は相性がいいはずなのですが、今になって 16 bit では収まりませんでしたといわれても... Unicode で当初考えられていた文字数よりも地球上で使われる文字が全然多かったというわけですね。16 bit に収まらなかった文字を補助文字 (Supplementary Character) といいます。 補助文字が定義されたのは Unicode 2.0 からのようですが、実際に補助文字が使われたのは 3.1、そして Tiger では Unicode 4.0 をサポートするのです。ということ

  • [Java]IVSの異体字を元の字と同一視して比較する - terazzoの日記

    IVSと正規化について - Togetter 正直あまりちゃんと付いていけてないんだけど、結局のIVS入りの文字列をVS抜きのものとを同一と看做してワンメソッドで比較するような仕組みはJava 6でも入ってないらしい。 リンク先より引用: @ogwata @moji_memo IVSがそもそもUnicode正規化の対象外なのだと思います。互換漢字を統合漢字にする合成除外とは違って、IVSを基底文字だけにするのならVSを削除しちゃえばいいだけですし。 ということでVSを削除するコードを書いてみたり、異体字を実際に表示してみたりした。 予備知識 JavaのStringとcodePointの扱いについてはこのへんを参照。 IVSについてはUTS #37: Ideographic Variation Databaseを参照。統合漢字(UNIFIED IDEOGRAPH)の後ろにU+E0100〜U+

    [Java]IVSの異体字を元の字と同一視して比較する - terazzoの日記
    mtzky
    mtzky 2011/03/16
  • Unicode 半角・全角形 - CyberLibrarian

    範囲:FF00~FFEF Unicodeの半角・全角形(The Unicode Standard Halfwidth and Fullwidth Forms)を十六進数の数値文字参照で記述した表です。 Fullwidth ASCII variants(全角ASCII) Unicode 表示 名称 備考 FF01