エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
機械学習でのカテゴリデータの扱い方 - Qiita
import pandas as pd df = pd.DataFrame(data={'age': [34, 18, 52, 8, 21], 'blood_type': ['A', 'B', ... import pandas as pd df = pd.DataFrame(data={'age': [34, 18, 52, 8, 21], 'blood_type': ['A', 'B', 'A', 'AB', 'O']}) 機械学習の特徴量として 'A' や 'B' などのカテゴリデータを表す文字列をそのまま与えることはできない。では、これらを整数値に置き換えればいいだろうか。カテゴリデータを整数値に置き換えるには pandas.factorize を使う。 実はこれはよくない。この例では 'A' は 0 に、'B' は 1 に、そして 'O' は 3 に置き換えられている。ここで、例えば「A 型から O 型への距離は A 型から B 型への距離の 3 倍である」というような関係はない。しかし、機械学習アルゴリズムはそのような関係があると誤解してしまう恐れがある。 ではどうしたらよい