タグ

2010年10月19日のブックマーク (1件)

  • tf*idf 法による特徴的単語の抜き出し - World Wide Walker

    tf*idf 法による特徴的単語の抜き出し Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking特徴的単語の抜き出し方法。nterm := あるドキュメント内のある単語の出現回数 maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数 tf = 0.5 + 0.5 * nterm / maxn idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1 log の底は任意に変えることで idf の重み付けを変更出来る と言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。 とりあえず kakasi -w で単純な単語分割したもの