MeCabのサイトからダウンロードできるIPA辞書には、無駄な項目(単語)が若干含まれている。 ※ '無駄'とは普通の形態素解析しか行わない限り。N-Best解などの結果を使いたい場合は別。 # IPA辞書のダウンロードディレクトリに移動 $ cd mecab-ipadic-2.7.0-20070801/ # 辞書(*.csv)内の'神島'という単語を検索 $ grep '$神島,' *.csv # 表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 神島,1290,1290,7653,名詞,固有名詞,人名,姓,*,*,神島,カミシマ,カミシマ # ここより下の3単語は、単語コストと読み・発音以外は等しい 神島,1293,1293,8715,名詞,固有名詞,地域,一般,*,*,神島,カミジマ,カミジマ 神島,1293,1