タグ

ブックマーク / chasen.org/~daiti-m (1)

  • mots quotidiens.

    アラビア語形態素解析デキターー!!!! Xが単語境界です。 setenv LANG ar_AE.utf8 で行けました。 嬉しい。 教師データなんてものは一切使っていません(Arabic gigawordの生テキストのみ) ので注意。完全ベイズです。 語彙を見ると, それなりに高頻度なものが出ている感じです。 問題はこれを読めないことです。(T_T) 内部で先月Talkをした時に, 渡辺さん が, C/C++でこういう文字タイプの判別を行うにはIBMの ICU を使うといいと教えてくれた。 ICUはUnicodeを扱うフリーソフトで, 基的にUTF-16を扱うもののようなので, 内部表現がUTF-16になるglibcでは, そのまま wchar_t や wstring の要素を渡すこと ができるようです。 ICUには正規表現やcharacter iteratorなど様々な機能があるようで

    no_ri
    no_ri 2009/06/29
    読めない言葉でも形態素解析ができる。なんというか、感動。
  • 1