AmazonでAndreas C. Muller, Sarah Guido, 中田 秀基のPythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎。アマゾンならポイント還元本が多… 有用な特徴量だけを残して残りを捨てて、特徴量の数を減らすことで、汎化性能を向上することができる。その基本的な戦略が下記の3つ。 単変量統計個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する。個々の特徴量を個別に考慮する。そのため、他の特徴量と組み合わさって意味を持つような特徴量は捨てられる。特徴量が多すぎてモデルを作ることができない場合や、多くの特徴量が全く関係ないと思われるような場合には、この手法が有効。 sklearn では、 SelectPercentile を用いる。 モデルベース特徴量選択教師あり学習モデルを1つ用いてここの特徴量の