CatBoostの論文における、prediction shiftについて調べる機会があったのでまとめてみました。 (CatBoost: unbiased boosting with categorical features https://arxiv.org/pdf/1706.09516.pdf ) 以下は、論文の4.1 Prediction shift、AppdendicesのA Proof of Theorem 1を元に、私の理解で構成しなおしたものです。 概要 勾配ブースティングの計算において、各ブースティングで同じ学習データを使うことにより、偏りが発生する。 シンプルな以下の前提で考える。 データセットの前提 データセットの前提は以下のとおり: データの個数は$n$個、特徴量は $(s, t)$ の2つ $s, t$はそれぞれベルヌーイ分布($p=0.5$)に従う二値変数 目的変数