今回は、以前実装したTF-IDFの処理をベースに、自分のブログに一番近いWikipediaの文章は何かをコサイン類似度を使って出してみる。 kzkohashi.hatenablog.com コサイン類似度とは? 高校の数学でやったようなやってないようなうる覚えな感じだったので、他の方のサイトを参考にすると コサイン類似度は2本のベクトルがどれくらい同じ向きを向いているのかを表す指標 mathtrain.jp となり、文章を全単語で表現されたベクトル空間で表すことで計算できる。 単純にある文章にその単語が含まれているかを0 or 1で表現すると以下になる。 単語1 単語2 単語3 単語4 ..... 文章1 1 0 1 1 ... 文章2 0 0 0 1 ... 文章3 0 0 1 0 ... cos(文章1, 文章2) = 1 * 0 + 0 * 0 + ... cos(文章1, 文章3)