ティーエフアイディーエフ TF・IDF 索引語の重み付け方法のひとつ。 TF(Term Frequency)は文書dに置ける検索語tの頻度 IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数 文書数Nと索引語tが一回以上出現する文書の数df(t)よって次式のように定義される。 IDF(t) = log10 (N / DF(t)) この両者の積を取ることで、索引語の重み付けを行う。 ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きくなる。 また、多くの文書に索引語が出現すれば、値は小さくなる。 [編集] TF・IDF による重要度 文書を特徴付けるキーワードになるようなタームの性質として、その文書に数多く、つまり高い頻度で現れる(TF)、少ない数の文書にしか現れない(IDF)、というふたつを考える。これはシンプルだが、