タグ

ブックマーク / deepfolte.hatenablog.com (1)

  • tfidfについて - 元ダメ院生がギークになるまで続ける日記

    授業でtfidfを勉強してちょっと分かりづらかったのでまとめておく。 tfidfとは? 情報検索で使うアルゴリズムの一つ。 それぞれの単語に重みをつけて、クエリーから文書をベクトル空間で表し 文書とクエリーの類似度でランク付けを行う。 その値が高いほど重要。 tfidf = w = tf・idf w:重みということ。 tfとは? Term frequency(単語出現頻度) 同じ文書に何回も現れる単語ほど検索の有力な手がかり。 つまり一つの文書の中に多く書かれてる単語を探すってことか。 f =frequency of term in a document 単語が一つの文書で出現する頻度 つまりブラウザ上で Ctrl-Fとか使ってある単語を検索したときに、ヒットする数 tf = f/max(f) = 単語の頻度/文章で出現する単語の中で一番多い単語の数 修正(2009 1/6) tf = f

    tfidfについて - 元ダメ院生がギークになるまで続ける日記
  • 1