ベーシック Advent Calendar 2016 10日目は、 17卒内定者の@enta0701です。 今年の9、10月ごろ、Cos類似度という単語を知りました。 4日目の記事にもありますが、レコメンドシステムなんかにも使えるそうです。 なにやら面白そうな匂いがしたので、実際に文書同士の類似度計算を Cos類似度と、ググっていたときに頻繁にでてきたDoc2Vecで試してみようと思います。 Cos類似度とは 2つのデータにおいて、特にn次元のベクトル同士を比較する際に扱われるそうです。 数式で書くとこんな感じ。 $$ similarity = cos\theta = \frac{A \cdot B}{||A|| ||B||} $$ 内積ですね。 この値が1に近いほど類似度が高く、0に近いほど類似度が低いことを表します。 Cos類似度を使って文書を比較する際には、文章中の単語に重み(特徴)