タグ

Luceneに関するgonhainuのブックマーク (1)

  • ElasticSearch入門 (3) スコアの計算 - 野次馬エンジニア道

    フィルタリングの話の前にスコアの計算が気になったので深く見てみることにした。 基的な知識 ベクトル空間モデル 単語を一つのベクトルとして表現して扱うベクトル空間モデルでは、ドキュメントの類似度をコサイン距離で計算する。 正規化することでドキュメントの長さの情報が失われてしまうのが問題点。 TF・IDF より良い結果を得る方法として各タームを出現頻度によって重みづけるというやり方が知られている。 をドキュメントの集合として、 各タームの に対してを文書における の出現回数、はが一回以上含まれる文書の数としたときに IDFはドキュメント全体におけるタームの重要性なイメージ。におけるの重みは。 他にも定義は色々存在するようだ*1。 Luceneのスコア計算 概念的なスコア計算 Luceneでは、のノルムの部分を以下のように分解している。 項 説明 coord ドキュメントに含まれるタームの数に

  • 1