タグ

2017年7月19日のブックマーク (1件)

  • Leakage in Data Mining

    データマイニングの現場で頻発する Leakage という問題について気出して考えてみた、的な論文を読んだ: Leakage in Data Mining: Formulation, Detection, and Avoidance. KDD 2011. 概要 Leakage とは、モデルを作るときに、来知らないはずの情報(変数やデータ)を不当に使ってしまうこと 手元のデータではメッチャ高い精度が出たのに、番環境ではまったく精度が出ない、といった事態になる その問題について定式化を試みると同時に、Leakage を検知・回避する方法を考える こういう議論がまじめにされてこなかったせいで、KDD Cup 2008 のようなプロが企画・主催したコンペでさえ、問題の不備による Leakage が発生している おもしろ事例集 はじめに、データマイニングコンペでの Leakage 事例が幾つか紹

    Leakage in Data Mining
    takuti
    takuti 2017/07/19
    良い話を書きました。