2007.08.20 「Yahoo!の形態素解析をMeCabで無理やり再現してみる」を試してみて カテゴリ:ことばの処理 Yahoo!の形態素解析をMeCabで無理やり再現してみる を読む。 MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 学習させるときには、辞書と、正解データを用意しなきゃならない。これが面倒だから、なかなか自作の辞書を作る気にならない。Wikipedia のデータをダウンロードすれば、大量のテキスト文章は得られるけれども、正解出力を手作業で作るのは大変だし、元辞書も作らなきゃならないから、不可能に近い。 じゃわ、正解出力をちゃんと手作業で作るのではなくて、Yahoo! API の 日本語形態素解析Webサービス を使って得られた解析結果を擬似的