前にSQLで言う所のcase when x then y else z end的な処理をpandasでやる時にすぐやり方を忘れるから記事にした。あれはあれでいいのだけれど、まだまだ前処理にすごく時間がかかる!!めっちゃめんどい なんとかしたい... 今までpandas.DataFrameで色々特徴量生成(feature creationとかfeature engineering)する時に、ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い印象。 scikit-learn.preprocessing category_encoders featuretools 特に大量に特徴量を生成したい場合、featuretoolsがすごく便利そうな予感!!! よっしゃ!! 使ってみよ!!! Featu