GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た
Integrating BM25 & BM25F into Lucene Joaquín Pérez-Iglesias Introduction This document describes the BM25 and BM25F implementation using the Lucene Java Framework. The implementation described here can be downloaded from http://nlp.uned.es/~jperezi/Lucene-BM25/jar/models.jar. Both models have stood out at TREC by their performance and are considered as state-of-the-art in the IR community. BM25 i
代表的な関連度指標には、コサイン類似度(cosine similarity)やOkapi BM25などがあります。具体的な計算式や詳細はここでは省略しますが、上記の値を組み合わせて、関連度を計算します[3]。 コサイン類似度は、文書とクエリをタームを次元としたベクトル空間にマップし、文書ベクトルとクエリベクトルの成す角度により、文書とクエリの関連度(類似度)を求めます(成す角度が小さければ関連度が高い)。またOkapi BM25は、文書がクエリに対して適合かどうかは確率的に決定されるという統計的な原理に基づき、文書とクエリの関連度を求めます。 検索時にこれらを計算するには、索引の構築時に上記の統計値を計算し保持しておく必要があります。実装にはさまざまな方法が考えられますが、たとえばfd,tはポスティングリストの中に埋め込んでおき[4]、ftやFtは辞書と一緒に保存しておくといった方
In information retrieval, Okapi BM25 (BM is an abbreviation of best matching) is a ranking function used by search engines to estimate the relevance of documents to a given search query. It is based on the probabilistic retrieval framework developed in the 1970s and 1980s by Stephen E. Robertson, Karen Spärck Jones, and others. The name of the actual ranking function is BM25. The fuller name, Okap
Okapi-BM25 は,文書検索に使用されるものであり,クエリ に対する文書 の関連度を順位付ける機能である. 次の式で関連度 を計算する.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く