タグ

ブックマーク / private.ceek.jp (1)

  • TF-IDF を改めて調査中 - Ceekz Logs (Move to y.ceek.jp)

    ナイーブベイズ分類器のソースコードを整理しているときに、単語データベースを作成しているのだから TF-IDF に基づいて重要単語の抽出も出来るのではないかと思ったわけです。 TF-IDF は情報検索の考え方なので、重要単語の抽出元となる文書は、既に学習済みの文書集合に含まれているという前提から計算されます(たぶん)。ということで、学習されていない場合は DF が 0 になる可能性があるわけで、演算が不可能(ゼロ頻度問題?)。ナイーブベイズを調べたときに知った加算スムージングに似た手法を用いることにしたけど、良いのだろうか…。 TF-IDF の基になっている、索引語の重み付け(term weighting)に関しても調べてみた。 ・局所的重み (local weight) ・大域的重み (global weight) ・文書正規化係数 (document normalization fact

  • 1