タグ

ブックマーク / d.hatena.ne.jp/dkfj (1)

  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

  • 1