1.きっかけ KaggleとかSIGNATEのcsv系のコンペで前処理をする際に文字で表されたカテゴリデータ(例えば、天気・メーカーなど)があって、このようなデータはone-hotベクトルに変換しないといけない。 scikit-learnのpreprocessingメソッド使っても上手くいかないこと多々ある。 それならNumpyとPandas使って自分でプログラム書いた方が楽なのではと思ったので、この記事を書くに至りました。 2.scikit-learn使った場合 import sklearn.preprocessing as sp import pandas as pd train = pd.read_csv(file_path) le = sp.LabelEncoder() le.fit(train.カラム名.unique()) train.カラム名 = le.fit_transfor
![NumpyとPandasだけでone-hotベクトルを作る - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/cbc1f0f7d57c0fbd7dc87d81bc07542c36a83eff/height=288;version=1;width=512/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fqiita-fb-2887e7b4aad86fd8c25cea84846f2236.png)