1.はじめに 前回の記事で機械学習は「データ前処理が8割」と書きました。 今回はそのデータ前処理として私が実施していることを備忘録として書いておきます。 まだまだ至らない点等あるかと思いますので、間違いなどご指摘いただけると幸いです。 2.前処理の必要性 まず、全体像から把握しておくことが大切なので、 機械学習の全体像で見た前処理の立ち位置を以下図に示します。 図.機械学習の全体像から見た前処理の立ち位置 前処理が必要な理由は以下のようなことが挙げられます。 ・機械学習のモデルは文字列データではなく数値データで渡す必要があるため ・上記同様、欠損値(null)があるデータも変換しないと機械学習のモデルに渡せないため ・精度を向上させるため ・リーケージの発生を防ぐため etc... 3.前処理の具体例 前処理は具体的に以下のようなことを実施します。 ・カテゴリーデータの処理 ・欠損値処理