この記事についての注意 この記事は、下記のブログにリライト中なのでできればそちらを見ていただければと思います。 前処理とは? 蓄積したデータを、目的の作業(機械学習など)をするために、綺麗にしたり、加工したりすること。 機械学習を行う方々は、データ収集作業とあわせて この作業に1番の作業時間を使っているらしい。 前処理を学習する上で登場する言葉 データクレンジング データクリーニングと同義。多分「前処理」の中の一部の作業を指す。 データクリーニング データクレンジングと同義。 データラングリング 上の2つよりは広義。多分「前処理と同義」か、「前処理を内包」している。 前処理のフロー 下記のようなことを行う。もっと効率的な順序があるかもしれないし、もっと細かい作業もある。 事前分析 データの情報量、状態などをチェックする。 クリーニング 列名の変更 表記揺らぎのチェック 重複行のチェック 欠