タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

cos類似度に関するchocodoughnutのブックマーク (1)

  • 相関係数・COS類似度 - メモ帳の日記

    (1)COS類似度 文章の類似度を測る尺度としてCOS類似度がある。クラスタリングの素性だとかに使われるようで、簡単な式で算出できるのでとっても便利である。 具体例で考えてみる。 文書x:「私は格的に頭の悪い生徒です。」 文書y:「私は当に頭の良い生徒です。」 この二つの文書は類似しているだろうか? ぱっと見似たような文章だがまあ、言いたいことは違うし逆だ。(この文書の類似度を求めることに意味はあるだろうか?) このとき、文書を単語1語の生起回数を要素としたベクトルにしてみよう。(ベクトルと書いたがこれを単純に、要素を並べたもの、と思ってもこの範囲では問題ない。と書けば予防線が張れるのか。) まず全文書の単語をならべたベクトルを用意する。 {私,は,格的,に,当,頭,の,悪い,良い,生徒,です} 読点は今要らない情報ではないので無視する。 さて、このベクトルに生起回数を入れてみよう

    相関係数・COS類似度 - メモ帳の日記
  • 1