タグ

2021年1月5日のブックマーク (1件)

  • カテゴリカル変数のEncoding手法について - ysaz (ImanazaS) blog

    Structured Data(構造化データ)の下処理をおこなう際に避けて通れないのがFeature Engineering(特徴量エンジニアリング)。 特に悩ましいのがカテゴリ変数の扱いで、どのように扱えば良いか困ることが多く、また、使った手法もすぐに忘れてしまいがちなので、自分なりに整理して記事にまとめておきたいというのが趣旨。 1.よく使われる手法 2.次元を増やさない場合 Label Encoding Count Encoding LabelCount (Count Rank) Encoding Target Encoding 3.次元を増やす場合 One hot encoding Entity Embedding 4.参考記事 1.よく使われる手法 まずはよく用いられる定番の手法から。次元を増やすかどうかで大まかに次の2つに分類できる。 ・次元を増やさない場合(Label, Co

    カテゴリカル変数のEncoding手法について - ysaz (ImanazaS) blog