こんにちは、西岡 (@ken_nishi) です 今回は、機械学習だけでなくデータを扱うときに大きな問題一つとなっているリーケージについてお話します。 リーケージに関しては、「Leakage in data mining: Formulation, detection, and avoidance」(Kaufman, Shachar, et al., " ACM Transactions on Knowledge Discovery from Data (TKDD) 6.4 (2012): 1-21.)の内容を元に、過去にリーケージが発生した事例とリーケージの対策を紹介します。 高い精度の機械学習のモデルが作成できたと思ったら、リーケージが発生していて、実データに対して全く使えないモデルだったということがないようにしっかりとリーケージを理解していきましょう。 予測精度の高いモデルを疑うとこ