タグ

ブックマーク / blog.takuros.net (1)

  • cabochaでUTF8 - プログラマでありたい

    昨日気づいたのですが、cabocha 0.60が開発中のようです。今は、pre2まで出ています。 変更点は、以下の通りのようです。何が嬉しいかというと、UTF8に対応しているところ。内部的には、ほぼフルスクラッチで書き直しの力作のようです。また、chasenのサポートをやめてmecabオンリーになっているので、mecabが必須になっています。 変更点: - UTF8対応 (./configure --with-charset=UTF8) - 文節区切りと固有表現抽出に CRF (実装はCRF++)を使用 - ChaSenへの依存を廃止し、MeCab のみのサポートに - 固有表現を行う前に文字列の正規化を行うことで若干の精度向上 - 簡易並列処理の廃止。係り受けのみ - APIの一新、より粒度の細かい制御が可能 - PerlやMakefileに依存していた部分の排除。 - 単一バイナリ c

    cabochaでUTF8 - プログラマでありたい
  • 1