タグ

TF-IDFと研究に関するmyu-jinのブックマーク (2)

  • TF-IDF値計算プログラム

    プログラムは,形態素解析済の文書ファイルを格納したディレクトリをコマンドライン引数として,各単語について重み付け手法の1つであるTF-IDF値を計算し,閾値以上の単語を属性ファイルとして出力するものである.出力は単語リスト,C4.5形式,TinySVM形式の3種類を指定できる. TF-IDF値は文書中から重要な索引語を取り出すために使われ,単語の出現頻度(網羅性を表す重み)TF値と文書頻度の逆数(特定性を表す重み)IDF値の積によって与えられる.プログラムでは以下の式で計算する. TF値 IDF値 TF-IDF値 なお,後述のオプションによってTF値を正規化しない(単語の出現回数をそのままTF値とする)ようにできる.また,IDF値の代わりにRIDF値を用いることもできる. 出力ファイル名は"指定したディレクトリ名+出力形式に対応する拡張子"となるが,別の名前に変更することもできる. 動

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • 1