この記事はKaggle Advent Calendar 2021の4日目の記事です. はじめに この記事ではテーブルデータコンペティションにおいて,主に数値データ,カテゴリデータをもとに特徴量を作成する方法をまとめました.発展的な内容というより,初めてコンペに参加する方でも使える汎用的な特徴量エンジニアリングを紹介します. 特徴量エンジニアリング!...そのまえに モデルについて 特徴量エンジニアリングはモデルによって処理が変わることがあります. 例えば勾配ブースティング決定木(GBDT)といった決定木はスケーリングする必要がなく,またLightGBMなどは欠損値をそのまま扱うことができます.一方でニューラルネットワーク(NN)や線形回帰モデルはスケーリングおよび欠損値補完をする必要があります. このこと以外にも,決定木は各特徴量間で差や比率を表現することが苦手であるために明示的に作る必要
![序盤に試すテーブルデータの特徴量エンジニアリング](https://cdn-ak-scissors.b.st-hatena.com/image/square/e283d7c213f73377fa2f2ac31472f8a92bc491d6/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--SebBfp2i--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E5%2525BA%25258F%2525E7%25259B%2525A4%2525E3%252581%2525AB%2525E8%2525A9%2525A6%2525E3%252581%252599%2525E3%252583%252586%2525E3%252583%2525BC%2525E3%252583%252596%2525E3%252583%2525AB%2525E3%252583%252587%2525E3%252583%2525BC%2525E3%252582%2525BF%2525E3%252581%2525AE%2525E7%252589%2525B9%2525E5%2525BE%2525B4%2525E9%252587%25258F%2525E3%252582%2525A8%2525E3%252583%2525B3%2525E3%252582%2525B8%2525E3%252583%25258B%2525E3%252582%2525A2%2525E3%252583%2525AA%2525E3%252583%2525B3%2525E3%252582%2525B0%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Acolum2131%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2RhZDZiMjhmMmEuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)