門脇大輔 阪田隆司 保坂桂佑 平松雄司 著 Kaggleで勝つデータ分析の技術 2019-10-09 技術評論社 https://gihyo.jp/book/2019/978-4-297-10843-4 polarsの練習も兼ねて、データの前処理と特徴量エンジニアリングについて網羅的にメモを残します。 ダミーのデータセットを基に相関のあるデータを作成し、このデータを使って遊んでいきます。 TL;DR 欠損値は平均で埋めるだけにせず、欠損かどうかのカテゴリ変数へ掃き出して、よりよい補完値で埋める。または埋めなくても良い手法で分析する。 スケーリングは標準化だけではなく、順位や分布の裾野を見ながら最適なもの(モデルが扱いやすいもの)を選ぶ。 カテゴリ変数のエンコーディングは、one-hot化やLabel Encodingだけでなく、精度重視ならTarget Encodingなども試す。 列同士
