Doc2Vecとは Doc2Vecは、任意の長さの文書をベクトル化する技術。 文書やテキストの分散表現を獲得することができる。 *ベクトル同士の類似度を測定して、文書分類や似た文書を探すことができる。 Word2VecのCBoWにおける入力は、単語をone-hot表現した単語IDだけだったが、 Doc2Vecは、単語IDにパラグラフIDを付加した情報を入力とする。 下図のイメージ 下記、論文より抜粋 [1405.4053] Distributed Representations of Sentences and Documents 日本語での要約記事としてはこちらが分かりやすい。 【論文紹介】Distributed Representations of Sentences and Documents from Tomofumi Yoshida www.slideshare.net Word
![gensimでDoc2Vec - 機械学習・自然言語処理の勉強メモ](https://cdn-ak-scissors.b.st-hatena.com/image/square/eac2c90349f6cf638fafacd1e1d7ed96767dd1d6/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fk%2Fkento1109%2F20171115%2F20171115174313.png)