手軽にTF/IDFを計算するモジュール 情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 TF/IDFのネックは、製作者の指摘の通り「ある程度のボリュームもったドキュメントセット」というところ。これに対しての解は、wikipediaを使う、もしくは、検索エンジンを使うといったものです。が、確かに面倒くさい。 これに対して、予めドキュメントセットを用意しましたというのが、Lingua::JA::TFIDFの凄いところ。この場合、未知語の対応ど