IR Reading 2019秋で標題の論文を紹介しました。 発表で使ったスライドは以下です: speakerdeck.com 以下は、この論文を読んだときのメモです。 概要 検索エンジンで top-k のクエリ処理を高速化するのが目的 クエリ処理中の動的な文書の pruning(枝刈り)に着目 通常のアルゴリズムでは、それまでに処理した文書の top-k のスコアを保持 このスコアより小さいスコアの文書はスキップしてよい クエリ処理中の top-k のスコアを閾値として使っている この方法はロスレス、つまり正確な top-k の文書が得られる 閾値の初期値は通常、文書集合のなかの最低のスコアを使う この論文では、機械学習を使ってクエリの特徴量から最終的な閾値の予測をする これにより、多くの文書をスキップできるようになる = 高速化できる 予測した閾値が実際より高いと結果が不正確になる 正