[B! tf-idf] takutiのブックマーク

takuti id:takuti

tf-idfに関するtakutiのブックマーク (5)

Machine Learning :: Text feature extraction (tf-idf) – Part II | Pyevolve
Machine Learning :: Text feature extraction (tf-idf) – Part II Read the first part of this tutorial: Text feature extraction (tf-idf) – Part I. This post is a continuation of the first part where we started to learn the theory and practice about text feature extraction and vector space model representation. I really recommend you to read the first part of the post series in order to follow this se
takuti 2014/11/19
tf-idf
リンク
確率的情報検索 Okapi BM25 についてまとめた - sonickun.log
ひょんなことで情報検索の知識が必要になったので，勉強したことを簡単にまとめておきます．情報検索とは，コンピュータを用いて大量のデータ群から目的に合致した物を取り出すことです． Okapi BM25は情報検索における文章中の単語の重み付けの手法の一つであり，他にもTF-IDFと言ったアルゴリズムがあります． Okapi BM25 - Wikipedia, the free encyclopedia 一般的にはTF-IDFよりも良い結果が得られると言われ，比較手法としてのベースラインになっています． Term Frequency (TF) 文書中において出現頻度の高い単語は重要であるという考え方です．ある単語Tiの文書Dj中における重みを考えると TF(i,j) = (文書Djにおける単語Tiの出現回数) / (文書Djのの総単語数) となります． Inverse Document Fre
takuti 2014/11/19
tf-idf

自然言語処理
リンク
Okapi BM25 実装方法 - 旧みずぎわブログ
2013-10-15 Okapi BM25 実装方法技術系単語重み付け情報技術 ■はじめに最近の単語重み付け（用語重み付け）の分野ではTF-IDFを差し置いてOkapiのBM25という手法がスタンダードとなっている．一般的にTF-IDFよりも良い結果が得られると言われ，比較手法としてのベースラインとなっている．これを実装するためにはTF-IDFに一手間（文書長と平均文書長）加えればよい．以下がBM25の式である．出典：http://en.wikipedia.org/wiki/Okapi_BM25 各パラメータは D：特定の文書 Q：全部の単語 qi：i番目の単語 IDF (qi)：単語qiのIDF値 f(qi,D)：文書Dの中での単語qiのtf |D|：文書Dのドキュメントの長さ→文書の単語数で置き換えられるはず avgdl：全文書の平均ドキュメント長 k1：パラメータ　1
takuti 2014/11/19
tf-idf

自然言語処理
リンク
TF-IDFで遊んでみた - uncertain world
最近，何が分かってて何が分かってないのかがゴチャゴチャしてきたので，頭の整理と勉強の為に，某ニュースサイトの記事をクローリングして集めていたものを使って色々遊んでみました．今回はTF-IDFの計算をMySQLでやるというお題．ここで言うTFとIDFの意味は以下のような感じです．単語の文書における重みをとすると，以下のような指標によってを特徴付けることができる．・TF(局所的重み付け) 単語の文書における出現頻度を元に計算される重み． = 単語の文書における出現回数 / 文書に出現した単語数ここで注意するのは，"文書に出現した単語数"は単語数であり，単語の種類数ではないという事．例えば，「今日は東京で太郎君と東京タワーに行ってきました．東京まんじゅう美味いな．」という文書があった場合，今日/は/東京/で/太郎/君/と/東京タワー/に/行っ/て/き/まし/た/．/東京/まん
takuti 2014/11/04
tf-idf
リンク
ベクトル空間モデル
0.1 ベクトル空間モデル重み付けと最大頻度での正規化 (Croft) tfji 最良優先検索検索結果として得られた文書集合にも、質問への適合の度合は一様ではない。最良優先検索は、適合の度合によって検索結果の文書集合を順位付けておく方法である。利用者には上位から順に提示することになる。これによって、完全一致検索の欠点を克服しており、最近ではよく使われるようになってきた。最良優先検索のモデルには確率モデル (Robertson & Jones, 1976)、拡張ブーリア = K f (i; + (1 0 K ) maxreqreqj()i; j ) f i;j log および文書におけるターム数で正規化 (Harman) log2(f req (i; j ) + 1) tf = log2 (文書j 中のター
takuti 2014/11/04
tf-idf
リンク
1