ひょんなことで情報検索の知識が必要になったので,勉強したことを簡単にまとめておきます. 情報検索とは,コンピュータを用いて大量のデータ群から目的に合致した物を取り出すことです. Okapi BM25は情報検索における文章中の単語の重み付けの手法の一つであり,他にもTF-IDFと言ったアルゴリズムがあります. Okapi BM25 - Wikipedia, the free encyclopedia 一般的にはTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインになっています. Term Frequency (TF) 文書中において出現頻度の高い単語は重要であるという考え方です. ある単語Tiの文書Dj中における重みを考えると TF(i,j) = (文書Djにおける単語Tiの出現回数) / (文書Djのの総単語数) となります. Inverse Document Fre