scikit learnで特徴量生成に役立ちそうな処理 概要 scipyとかscikit-learnとかに機能があるのに気づかずに独自実装して無駄に時間を使ってたみたいなことをしなくて済むように、整形したデータを分類器とかに回す前段階でやる処理でお手頃そうなものをまとめておく。 LabelEncoder 文字列をIDに変換したい場合に利用できる。 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit(['tokyo', 'osaka', 'nagoya', 'tokyo', 'yokohama', 'osaka']) le.classes_ #=> array(['nagoya', 'osaka', 'tokyo', 'yokohama'], dtype='<U8') le.transform([