エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
文書の類似度を求めるためのTF・IDF - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
文書の類似度を求めるためのTF・IDF - Qiita
文書Aのねぎの場合は、TF:0.333、IDF:1.602から、TF・IDF=0.333*1.602=0.534となる。 類似度を求める ... 文書Aのねぎの場合は、TF:0.333、IDF:1.602から、TF・IDF=0.333*1.602=0.534となる。 類似度を求める 文書間の類似度はTF、IDF、TF・IDFから求めることができる。 ここでは、TFあるいはIDFのみでなく、TFとIDFの両方の特徴を捉えていると考えられるTF・IDFで類似度を求める方法を示す。 ここで、これまで扱った各文書を全データとした場合、形態素解析の結果、7つの用語に出現する用語が絞られたとする。 この7つの用語で各文書を表現したいため、ここでは、各文書を7用語=7次元で表すことなる。 このとき、7つの次元からなるベクトルの向きが同じ方向を向けば(同じ大きさであれば)同じ性質を持つと仮定し、逆の場合(離れている場合)は異なる性質を持つとする。 ベクトルの類似度は一般化されたベクトルの大きさの算術式をもとに、次の式から得られる。 $s\Bigl(