はじめに ここ数ヶ月、日本語の類義語分類に使えないかと、Word2Vecについて色々と調べてきたので以下に纏めてみる。 Word Embeddings まず大前提として、自然言語を機械学習処理で扱う為には、文書や単語を数値として扱う必要がある。 . 通常、自然言語処理に出てくる単語を数値で表す場合、高次元のベクトルを使って表す。(200〜500次元程度、word2vecのデフォルトは100次元) 例えば、「花」という単語が[0, 0, 0, 1, 0, 0.8, ….]といったベクトルで表すことができるようになる。 このように単語からベクトルへ変換する方法は多数存在しており、単純に全出現単語を並べて各次元でその単語かどうかを判断する方法やニューラルネットワークを使うものなどがある。 Word Embeddingとは、このうちニューラルネットワークなどを用いて単語の素性値を機械学習によって学