最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自分を含めて誰の学びにもならないので、良い機会ということでちょっと欠損値処理に関する備忘録をまとめておこうと思います。いつもながらですが、誤解や理解不足の点などあればどしどしご指摘ください。 大前提 機械学習における欠損値処理は「予測」の助けになるように 統計学における欠損値処理は「パラメータ推定」の助けになるように 感想など 大前提 9年も前にこのブログで書いた記事が今でも時々各所で参照されているようなので引き合いに出しておきますが、そもそも論として機械学習が「予測」を目的とするのに対して統計学は「説明」を目的とすることが多い、という点を指摘しておきます。