タグ

ブックマーク / qiita.com/KokiSakano (1)

  • BM25を数式から説明する - Qiita

    はじめに BM25は特に検索アルゴリズムに使われる自然言語処理の一つで、tf-idfの進化系である。具体的には単語の出現頻度に基づいて、文章の順位付けを行う。tf-idfとの違いはドキュメントが短いほど順位が高くつき、長いほど順位が低くつく傾向があるというところである。この記事では数式を紐どいて、BM25の性質を説明する。 数式 BM25の数式についてまず説明する。$D$を文章全体の集合(以下全文章と呼ぶ)、$d$は文章であり$D$の要素、$q$を検索クエリ($q_i\in q$)とした時のBM25の数式は以下のようなものである。 $$ score(q, d) = \sum_i idf(q_i)\times\frac{(k_1+1)f(q_i, d)}{f(q_i, d)+k_1(1-b+b\frac{|d|}{avg(dl)})} $$ $idf(q_i)$は単語$q_i$のidf、$f

    BM25を数式から説明する - Qiita
    kiririmode
    kiririmode 2023/11/12
    単語の出現頻度に基づいて文章間の関連の強さをランクづけする
  • 1