タグ

ブックマーク / sile.hatenablog.jp (1)

  • UNF : Unicode正規化ライブラリ - sileのブログ

    UNFという名前*1で、C++でUnicode正規化を行うライブラリを実装 (ver 0.0.1)。 ついでに、それを利用したRuby拡張ライブラリも作成。 C++Rubyで使える、軽くて高速なUnicode正規化ライブラリは、一年以上前から欲しい(作りたい)と思っていたので、作り終えてみると少し人心地ついた感じがする。 特徴(?) NFD,NFC,NFKD,NFKC Unicode 5.2.0に準拠 まだバグが残っている可能性はあるが正規化テストはパスしているので、それほど致命的なものはないと思われる*2 UTF-8にのみ対応 中間的にUnicodeのコードポイントへの変換を経由せずに、UTF-8文字列を直接操作しているため その内他のエンコーディングにも対応するかもしれない 正規化に用いる変換テーブルおよび各種文字属性はDoubleArray(Trie)を使って保持 DoubleAr

    UNF : Unicode正規化ライブラリ - sileのブログ
  • 1