タグ

2008年11月4日のブックマーク (2件)

  • これはセンスが良い。Lingua::JA::TFIDF - プログラマでありたい

    手軽にTF/IDFを計算するモジュール 情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 TF/IDFのネックは、製作者の指摘の通り「ある程度のボリュームもったドキュメントセット」というところ。これに対しての解は、wikipediaを使う、もしくは、検索エンジンを使うといったものです。が、確かに面倒くさい。 これに対して、予めドキュメントセットを用意しましたというのが、Lingua::JA::TFIDFの凄いところ。この場合、未知語の対応ど

    これはセンスが良い。Lingua::JA::TFIDF - プログラマでありたい
  • 手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

    情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF(Term Frequency)の計算はなんら難しくありませんが、IDF(Inve

    手軽にTF/IDFを計算するモジュール - download_takeshi’s diary
    dkfj
    dkfj 2008/11/04
    センス良いなぁ