特徴量エンジニアリングとしてのOne-Hotベクトルの必要性と、PandasでSparseな行列を使うときのGroupbyの†闇†の話 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/koshian2

3users がブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

mimirock315 “理解しやすいのはメモリ使用量です。データが150個程度だと気にすることはありませんが、例えばデータが100万個でカテゴリーが1000個だったとします。ディープラーニングで使うことも考えて、最大でfloat32（4バイト変数

2019/10/01 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

特徴量エンジニアリングとしてのOne-Hotベクトルの必要性と、PandasでSparseな行列を使うときのGroupbyの†闇†の話 - Qiita

PandasでOne-HotベクトルをメモリケチるためにSparse行列（疎行列）として記録してGroupbyしたら値が消... PandasでOne-HotベクトルをメモリケチるためにSparse行列（疎行列）として記録してGroupbyしたら値が消えて、1日分の処理丸々無駄にしまいました。疎行列のGroupbyで悲しい思いをする人が出ないように書いておきます。環境：Pandas 0.23.4　Final 前置きが若干長いので、**†闇†**の部分だけ読みたい方は、「PandasのGroupbyとSparse行列の†闇†」まで飛んでください。 One-Hotベクトルとはあるカラムだけ1で他のカラムは0な行列の表現。カテゴリー変数でよく使います。古典的な統計の教科書では「ダミー変数」という言い方もします。PandasのOneHotベクトルを作る関数get_dummiesはこれが由来です。例えば、3つのクラスがあったとして、それぞれ$0, 1, 2$としましょう。今データのラベルが、 $$y=(0,1,2,1,0

ブックマークしたユーザー

dealforest2020/01/18
mimirock3152019/10/01

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx