論文 Gunosy と理研AIPの論文. 企業が持つ implicit feedback のデータを公開するためには アクティブユーザ数や収益や平均クリック数といった business metric を隠したい 公平性を担保したい Population Bias を減らしたい という三つの気持ちがある. 今回はログ中のユーザをサンプリングして公開用データを構築するわけですが,ユーザごとにサンプリング時の重み w を推定する問題として定式化する. この時 business metric を隠すために,サンプリング後のクリック数の分布と特定の分布 (zipf など) との Wasserstein distance を取る 公平性のためにサンプリング後のユーザの属性の分布と uniform distribution との KL divergence Population Bias 対策でサンプリ