タグ

Okapi BM25に関するmary_ppのブックマーク (1)

  • Okapi BM25 実装方法 - 旧みずぎわブログ

    2013-10-15 Okapi BM25 実装方法 技術系 単語重み付け 情報技術 ■はじめに 最近の単語重み付け(用語重み付け)の分野ではTF-IDFを差し置いてOkapiのBM25という手法がスタンダードとなっている. 一般的にTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインとなっている. これを実装するためにはTF-IDFに一手間(文書長と平均文書長)加えればよい. 以下がBM25の式である. 出典:http://en.wikipedia.org/wiki/Okapi_BM25 各パラメータは D:特定の文書 Q:全部の単語 qi:i番目の単語 IDF (qi):単語qiのIDF値 f(qi,D):文書Dの中での単語qiのtf |D|:文書Dのドキュメントの長さ→文書の単語数で置き換えられるはず avgdl:全文書の平均ドキュメント長 k1:パラメータ 1

  • 1