Kaggle Advent Calendar その2の23日目の記事です。 私はkaggleを始めたばかりでテーブルデータのコンペはTitanicしかやったことがないため、特徴量をどのように選べばいいのかよくわからなかったのでまとめます。 特徴量選択手法のまとめ 特徴量選択とは、機械学習のモデルを使用する際に有効な特徴量の組み合わせを探索するプロセスのことを表しています。 特徴量選択を行うことによりいくつかのメリットが得られます。 変数を少なくすることで解釈性を上げる 計算コストを下げて、学習時間を短縮する 過適合を避けて汎用性を向上させる 高次元データによって、パフォーマンスが下がることを防ぐ。 特徴量選択の種類 特徴量選択の手法は大別して3つ存在します。 Filter Method Wrapper Method Emedded Method Filter Method Filter M