もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブログやら何やらの記事が出回っているので、詳細な説明は割愛します。例えばPFIの海野さんのslideshare(Statistical Semantic入門 ~分布仮説からword2vecまで~)なんかは非常に分かりやすいかと思います。 要するにword2vecって何よ Recurrent Neural Network(再帰型ニューラルネットワーク)で、単語同士のつながり(というか共起関係)に基づいて単語同士の関係性をベクトル化(定量化)し、これを100次元とか200次元に圧縮して表現するもの。。。みたいです(汗)*1。 ※以下のようにご指
![青空文庫のデータを使って、遅ればせながらword2vecと戯れてみた - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/b3a969df892334bd6b2d0fb8502b35fbdd49171c/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FT%2FTJO%2F20140619%2F20140619150536.png)