Word2Vecを計算するまでの全手順を書いておこうと思います。 ご存知の方も多いと思いますが、Word2Vecは、単語をvector化して扱う技術です。 以下の解説がわかりやすいと思います。 Vector Representations of Words | TensorFlow 同じような使われ方をする単語同士が近くなります。 例えば、「夏」という単語の近くには、「冬」が配置されます。 さらに、vector化することで、単語の足し引きができるようになります。 例えば、「叔母」ー「女」+「男」=「叔父」となります。 前置きは、これくらいにして、実際に計算するまでの手順に移りたいと思います。 Word2Vecを計算するまでの概要 学習に利用する文章の収集 今回は、wikipediaの全文から学習させます。 フィルタリング wikipediaには、学習には必要のないXMLのコンテナ部分や