ヤバス けっこう日数が経っちゃったので復習しますね(;_;) 局所的重み 局所的重みは、文書に対する索引語の出現頻度から計算されるのでした。 局所的重みだけでも4種類あるみたいデスね。 2進重み(binary weight) 索引語が文書に出現するときに1。出現しなければ0になるというもの。 あんまり使われてないらしいです。 索引語頻度(term ferquency; TF) 出現頻度のこと。索引語が該当文書にいくつ出現するかという値です。 TF-IDFのTFですよ! 対数化索引語頻度(logarithmic term ferquency) 出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使います。 拡大正規化索引語頻度(augmented normalized term ferquency) 該当文書中でいちばん出現頻度の高い索引語の頻度を使って索引語頻度を正規化