word2vec 2014年から2015年辺りに流行った、単語をベクトル化して評価する手法。 有名なのは、 king – man + woman = queen 学習データとなるコーパスを準備する 無料かつ簡単に手に入るWikipediaのdumpファイルから持ってきます。 https://dumps.wikimedia.org/jawiki/latest/ の jawiki-latest-pages-articles.xml.bz2 をダウンロードします。 xmlファイルのままでは使えないので、 これをwp2txtを使ってplain.txtに変換します: $ gem install wp2txt $ wp2txt jawiki-latest-pages-articles.xml.bz2 ファイルが大量に作成されるので、次のように連結します: $ cat jawiki-latest-pag
![単語をベクトル化するword2vec(gensim)を使い、指定した二単語間の関連度を算出する - 文系プログラマー](https://cdn-ak-scissors.b.st-hatena.com/image/square/1b2a45a2dcbb7af0d810e149054cd151b0d9079c/height=288;version=1;width=512/http%3A%2F%2Fi.imgur.com%2FPcqxvKz.png)