タグ

自然言語処理に関するsobataroのブックマーク (22)

  • Yahoo! の他に、良い感じで特徴語抽出できるモジュールがありました: ふしぎだねブログ

    文書の特徴語抽出に Yahoo! デベロッパーズネットワークの「テキスト解析キーフレーズ抽出」API が使えると思いサンプルコードで試行してみました。 テキスト解析サンプルコード http://developer.yahoo.co.jp/sample/jlp/sample3.html 特徴語といえそうな単語が上位にリストされます。 それなりと感じましたが、何となく、今一歩という感じもありました。 また、長文になるとレスポンスが表示されないのは仕様でしょうか?その点も気になりました。 日を代表する検索企業のものなので、これが決定版になる印象を持っていましたが、そういうものでもないのですね。 この機会に他をあたったら、興味深い内容をまとめているサイトに出会いました。 検索エンジンを使う方法やコーパスとして Wikipedia などを使う方法が紹介されています。 また、先駆者が発信する情報がま

  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ