タグ

2008年1月31日のブックマーク (1件)

  • きまぐれ日記: MeCab: 字種に基づくわかち書き

    前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。 日語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics) で切り出しています。 今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。 例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も