mecabに関するkbkbkbkb1のブックマーク (2)

  • MeCabの未知語(unk.def)と戯れた記録 : mwSoft blog

    今年の初めくらいにメモして後でまとめようと思っていた話なんだけど、さっぱりまとめる暇が取れないまま放置されていたので、メモをそのままブログに貼っておく。 MeCab(辞書はNAIST)で遊んでいたら、スクエニが以下のように解析された。 echo スクエニ | mecab スクエニ 感動詞,*,*,*,*,*,* EOS 感動詞になっている。出来れば名詞が良いなぁと思う。 スクエニは未知語として判定されていると思われる。 未知語判定されているかどうかは、-F%Sすれば分かる。 1が出れば未知語、0は辞書にある語。 echo スクエニ魔法 | mecab -F"%m\t%s\n" スクエニ 1 魔法 0 EOS 未知語については「/usr/local/lib/mecab/dic/naist-jdic/unk.def」を見れば分かる。 KATAKANA,1358,1358,3869,名詞,一般,

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • 1