まずは、素うどんのXGBoostにかけて、plot_importance, feature_importances_を確認する。しかる後に、各特徴量をF-SCOREの高い順にExploratory Data Analysis (EDA)を行い、データに対する感覚を掴む。特徴量の数が少ないのであれば、初めからEDA。 情報を含まないcolumnsを除く。[Kaggle Kernel: R, Python] 標準偏差が0の説明変数 (constant cols) を除く。 重複した説明変数 (duplicated cols) を1つだけ残して他を除く。 相関係数が1である説明変数の組 (perfectly correlated cols) を探し、1つだけ残して他を除く。 各列について、値が0である説明変数の数を数えて、合計値を追加の説明変数として加える (count 0 per row)。逆