こんにちは、Mr.Moです。 文書中に含まれる単語の重要度を評価する手法でよく使うものにTF-IDFがありますが、別の手法でOkapi BM25というのもあります。ケースによってはTF-IDFよりも精度が出る場合がありそうですので本記事でOkapi BM25をざっくり理解していこうと思います。 ちなみに、TF-IDFについては下記の記事を参考にしていただければと思います。 tf-idfについてざっくりまとめ_理論編 Okapi BM25とは Okapi BM25は、情報検索における順位付けの手法である。検索エンジンがクエリとの関連性に応じて、文書を順位付けするのに用いられる。1970年代から1980年代にかけて、スティーブン・ロバートソンやカレン・スパーク・ジョーンズらが確率適合モデル(英語版)に基づいて開発した。BM25の "BM" は、 "Best Matching" の略である。 h