はじめに ランキング学習のシリーズ記事の第二弾です*1. 前回の記事ではUnbiased Learning-to-Rankと呼ばれる, clickというimplicit feedbackを用いて relevanceに対して最適なスコアリング関数を学習するための損失関数を設計する方法について議論しました. その中で紹介したのがexamination parameter の逆数によって損失を重み付けするInverse Propensity Weighting (IPW)と呼ばれる方法でした. IPWはclickデータのみから真の損失関数を不偏推定することができるという嬉しさがあった反面, 肝心のexamination parameterの推定方法に関しては Result Randomizationの紹介のみに留まっていました. 本記事では, ユーザー体験を著しく害したり, KPIに大きな打撃を

