ratdrumのブックマーク / 2008年1月31日

きまぐれ日記: MeCab: 字種に基づくわかち書き

前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。日本語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics)　で切り出しています。今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基本的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も

はてなブックマーク

タグ

2008年1月31日のブックマーク (1件)

きまぐれ日記: MeCab: 字種に基づくわかち書き

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス