Structured Data(構造化データ)の下処理をおこなう際に避けて通れないのがFeature Engineering(特徴量エンジニアリング)。 特に悩ましいのがカテゴリ変数の扱いで、どのように扱えば良いか困ることが多く、また、使った手法もすぐに忘れてしまいがちなので、自分なりに整理して記事にまとめておきたいというのが趣旨。 1.よく使われる手法 2.次元を増やさない場合 Label Encoding Count Encoding LabelCount (Count Rank) Encoding Target Encoding 3.次元を増やす場合 One hot encoding Entity Embedding 4.参考記事 1.よく使われる手法 まずはよく用いられる定番の手法から。次元を増やすかどうかで大まかに次の2つに分類できる。 ・次元を増やさない場合(Label, Co
![カテゴリカル変数のEncoding手法について - ysaz (ImanazaS) blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/7f8bceee6ef9ab5be4da3fbec3a4fe4502dbed04/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F61D0XQc0fwL._SL160_.jpg)