用語「BM25」について説明。各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。キーワード検索以外にも、類似文書の検索やレコメンデーションにも活用できる。計算式は「(ある単語の文書間でのレア度)×(ある文書における、ある単語の出現頻度、の正規化された値)」で、正規化するための調整パラメーターを持つ、tf-idfの発展版と見なせる。 連載目次 用語解説 情報検索/自然言語処理におけるBM25(Best Matching 25)とは、検索クエリに最もよく一致する文書を見つけ出すための統計的アルゴリズムの一つである。このアルゴリズムは、文書内での単語の出現頻度(tf:term frequency)と、その単語が含まれる文書の希少性(idf:inverse document frequency)を用いて、各文書内に含まれる各単語が「その