だいぶ日が空きましたが、 Hello Lucene 6.0! その1:PointValues を使ってみる の続きです。 Lucene 6 の大きな変更として、デフォルトの Similarity(クエリとドキュメントの類似度を計算するクラス)実装が TFIDF から BM25 に変更されています。(※BM25 の実装自体は新しく追加されたわけではなく、4系の時から追加されていました。) BM25 は Probabilistic relevance model に基づくランキング関数で、 City University London の Okapi システムの研究チームから提案されたことから Okapi BM25 と呼ばれることも多いです。手法が研究・開発されたのは1980年代頃なので歴史は古く、情報検索分野では TFIDF よりも一般に良い検索精度が出る、という実験結果が出ている・・・