タグ

tf-idfに関するtakutiのブックマーク (5)

  • Machine Learning :: Text feature extraction (tf-idf) – Part II | Pyevolve

    Machine Learning :: Text feature extraction (tf-idf) – Part II Read the first part of this tutorial: Text feature extraction (tf-idf) – Part I. This post is a continuation of the first part where we started to learn the theory and practice about text feature extraction and vector space model representation. I really recommend you to read the first part of the post series in order to follow this se

  • 確率的情報検索 Okapi BM25 についてまとめた - sonickun.log

    ひょんなことで情報検索の知識が必要になったので,勉強したことを簡単にまとめておきます. 情報検索とは,コンピュータを用いて大量のデータ群から目的に合致した物を取り出すことです. Okapi BM25は情報検索における文章中の単語の重み付けの手法の一つであり,他にもTF-IDFと言ったアルゴリズムがあります. Okapi BM25 - Wikipedia, the free encyclopedia 一般的にはTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインになっています. Term Frequency (TF) 文書中において出現頻度の高い単語は重要であるという考え方です. ある単語Tiの文書Dj中における重みを考えると TF(i,j) = (文書Djにおける単語Tiの出現回数) / (文書Djのの総単語数) となります. Inverse Document Fre

    確率的情報検索 Okapi BM25 についてまとめた - sonickun.log
  • Okapi BM25 実装方法 - 旧みずぎわブログ

    2013-10-15 Okapi BM25 実装方法 技術系 単語重み付け 情報技術 ■はじめに 最近の単語重み付け(用語重み付け)の分野ではTF-IDFを差し置いてOkapiのBM25という手法がスタンダードとなっている. 一般的にTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインとなっている. これを実装するためにはTF-IDFに一手間(文書長と平均文書長)加えればよい. 以下がBM25の式である. 出典:http://en.wikipedia.org/wiki/Okapi_BM25 各パラメータは D:特定の文書 Q:全部の単語 qi:i番目の単語 IDF (qi):単語qiのIDF値 f(qi,D):文書Dの中での単語qiのtf |D|:文書Dのドキュメントの長さ→文書の単語数で置き換えられるはず avgdl:全文書の平均ドキュメント長 k1:パラメータ 1

  • TF-IDFで遊んでみた - uncertain world

    最近,何が分かってて何が分かってないのかがゴチャゴチャしてきたので, 頭の整理と勉強の為に, 某ニュースサイトの記事をクローリングして集めていたものを使って色々遊んでみました. 今回はTF-IDFの計算をMySQLでやるというお題. ここで言うTFとIDFの意味は以下のような感じです. 単語の文書における重みをとすると, 以下のような指標によってを特徴付けることができる. ・TF(局所的重み付け) 単語の文書における出現頻度を元に計算される重み. = 単語の文書における出現回数 / 文書に出現した単語数 ここで注意するのは,"文書に出現した単語数"は単語数であり,単語の種類数ではないという事. 例えば,「今日は東京で太郎君と東京タワーに行ってきました.東京まんじゅう美味いな.」という文書があった場合, 今日/は/東京/で/太郎/君/と/東京タワー/に/行っ/て/き/まし/た/./東京/まん

    TF-IDFで遊んでみた - uncertain world
  • ベクトル空間モデル

    0.1 ベクトル空間モデル 重み付けと最大頻度での正規化 (Croft) tfji 最良優先検索 検索結果として得られた文書集合にも、質問 への適合の度合は一様ではない。最良優先検 索は、適合の度合によって検索結果の文書集 合を順位付けておく方法である。利用者には 上位 から順 に提示す ることに なる。これ に よって、完 全一 致検 索の 欠 点を 克服 して お り、最近 では よく 使わ れ るよ うに なって き た。最 良優先 検索のモ デルには 確率モデ ル (Robertson & Jones, 1976)、拡張ブーリア = K f (i; + (1 0 K ) maxreqreqj()i; j ) f i;j log および文書におけるターム数で正規化 (Harman) log2(f req (i; j ) + 1) tf = log2 (文書j 中のター

  • 1