連載目次 用語解説 機械学習における“Garbage In, Garbage Out”(ゴミを入れたら、ゴミが出てくる)とは、品質の悪い不完全なデータを入力したり品質の悪い特徴量を作成したりすると、品質の悪い不完全な機械学習済みモデルが出力される、という格言/金言である。元々は、コンピュータによる情報処理全般における長年の格言であり、FIFO(First In, First Out:最初に入れたものを、最初に出す)をもじった感じでGIGOという呼び方もある。 この原理は機械学習を行う人であれば常識だろう。データの前処理や特徴量エンジニアリングの大切さは、初心者のときに必ず言及されるし、経験を積むほど身につまされるはずだ。そういった常識を分かりやすく表現したのが、この格言である。 Garbage In, Garbage Outは、解決が簡単そうに見えて非常に難しい問題である。例えば画像データ