Okapi BM25 とは? Okapi BM25 はオープンソースの検索エンジンとして有名な Elasticsearch やそのエンジンである Apache Lucene で採用されている検索のランキングアルゴリズムです。 ランキング手法としては TF-IDF が有名ですが、BM25 は TF-IDF を改良した物と言えます。また一方で、BM25 は確率論をベースとしたモデルを採用した手法でもあります。多くの検索エンジンでデフォルトのランキングアルゴリズムとして採用されており、BM25 は「現代版 TF-IDF」と言えると思います。 BM25 は以下を主要なアイデアとして採用した手法になります。この記事では二回にわたってこれらを解説していきます。 条件付き確率を基礎としたスコアリング ロバートソン/スパルクジョーンズ重み付け関数 (IDF に相当) Binary Independence