はじめに こんにちは。未熟者です。研究で自然言語を扱う予定なので自分用のメモ的な感じで書いきます。間違ってたら教えていただけるとありがたいです。あとプログラミングもあまり経験がないので汚いコード、変数名にはご注意を。 やりたいこと kerasのembedding層に日本語のコーパスを与えたいがそのまま与えてもindex化しろと言われた。初心者なのでどうしたらいいのかわからない。 そこで単純に、単語ごとにindexを与えていけば良いかと考えたが、調べてみると単語をベクトルや確率分布で扱うことでもできるらしい。 今回調べたもの ・One hot表現 ←これ ・Bag of Bigram(文字nグラム) (次回説明するかも(するとは言ってない)) 間違いの変更(2/22) コメントでHironsan様より、one hotについての間違いを教えていただきました。 本当にありがとうございます! こ