本プログラムは,形態素解析済の文書ファイルを格納したディレクトリをコマンドライン引数として,各単語について重み付け手法の1つであるTF-IDF値を計算し,閾値以上の単語を属性ファイルとして出力するものである.出力は単語リスト,C4.5形式,TinySVM形式の3種類を指定できる. TF-IDF値は文書中から重要な索引語を取り出すために使われ,単語の出現頻度(網羅性を表す重み)TF値と文書頻度の逆数(特定性を表す重み)IDF値の積によって与えられる.本プログラムでは以下の式で計算する. TF値 IDF値 TF-IDF値 なお,後述のオプションによってTF値を正規化しない(単語の出現回数をそのままTF値とする)ようにできる.また,IDF値の代わりにRIDF値を用いることもできる. 出力ファイル名は"指定したディレクトリ名+出力形式に対応する拡張子"となるが,別の名前に変更することもできる. 動