ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT)MachineLearningDeepLearningword2vecbertELMo 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonでデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言