最近,何が分かってて何が分かってないのかがゴチャゴチャしてきたので, 頭の整理と勉強の為に, 某ニュースサイトの記事をクローリングして集めていたものを使って色々遊んでみました. 今回はTF-IDFの計算をMySQLでやるというお題. ここで言うTFとIDFの意味は以下のような感じです. 単語の文書における重みをとすると, 以下のような指標によってを特徴付けることができる. ・TF(局所的重み付け) 単語の文書における出現頻度を元に計算される重み. = 単語の文書における出現回数 / 文書に出現した単語数 ここで注意するのは,"文書に出現した単語数"は単語数であり,単語の種類数ではないという事. 例えば,「今日は東京で太郎君と東京タワーに行ってきました.東京まんじゅう美味いな.」という文書があった場合, 今日/は/東京/で/太郎/君/と/東京タワー/に/行っ/て/き/まし/た/./東京/まん