文章間の類似度を測るには色々な方法があるが、ここではbag-of-wordsなる単語ベクトル同士のコサイン類似度(cosine similarity)を計算するカンタンな例を記しておく。 まずコサイン類似度であるが、要はベクトル同士のなす角の大きさをコサインで表現し、1に近ければなす角度が小さいので2つのベクトルはお互いに似ているし、0に近ければぜんぜん似てない、ということである。 bag-of-wordsというのは形態素解析された(単語に分割された)文に含まれる単語を要素とするベクトルである。例えば、以下の文章の場合は、 文1:「人生で起こることは、すべて、皿の上でも起こる」 (三谷幸喜) 文ベクトル1 = ("人生", "で", "起こる", "こと", "は", "、", "すべて", "、", "皿", "の", "上", "で", "も", "起こる", "。") といった具合で