類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日本のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。 では、Bag-of-wordsの何が問題なのだろうか?Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば
![Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル](https://cdn-ak-scissors.b.st-hatena.com/image/square/f63992b01b8b7e92b9bf4637bc148d5f598bc811/height=288;version=1;width=512/https%3A%2F%2Fdeepage.net%2Fimg%2Fdoc2vec%2Fdoc2vec-top.jpg)