いつも忘れるのでまとめておこう。 辞書と言ってもきちんとコストを計算して複雑な形態素解析をするわけではなく、 Wikipediaの項目名などを名詞として文章から抜き出すために追加するとかそういう例。 単語の活用も考えない。 1.もとになる単語のリストをつくる 上達の法則,0,0,-8944,名詞,一般,*,*,*,*,*,*,* ツブカラカサタケ,0,0,-18101,名詞,一般,*,*,*,*,*,*,* 旗艦・三笠,0,0,-8944,名詞,一般,*,*,*,*,*,*,* マルシェ志摩,0,0,-11757,名詞,一般,*,*,*,*,*,*,*まあこんな感じのCSVを作る。カラムは左から順に 表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 http://mecab.googlecode.com/svn/tru