
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Pythonで英文類似記事検索アルゴリズム : TF-IDF, Cosine類似度 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Pythonで英文類似記事検索アルゴリズム : TF-IDF, Cosine類似度 - Qiita
概要 急にリコメンドに興味を持ちまして、ニュースの類似記事検索アルゴリズムを試してみました。 アル... 概要 急にリコメンドに興味を持ちまして、ニュースの類似記事検索アルゴリズムを試してみました。 アルゴリズムは、自然言語分野ではよく使われているTF-IDFとCosine類似度を用いました。 TF-IDFとは 文章をベクトル化するアルゴリズムの一つです。 TF : Term Frequency。単語の出現頻度。 IDF : Inverse Document Frequency。直訳すると「逆文書頻度」。 珍しい文字が入ると値が大きくなる為、単語の「希少性」を表しているとも言えます。 各文章の単語を抜き出し、全ての単語に対してTF(その文章が保持する単語数)とIDF(希少性)を掛け合わせたベクトルを作成します。このベクトルを用いることで、文章を用いた情報検索やクラスタリングが可能になります。 詳しくはこちらの記事などが分かりやすいです。 Cosine類似度とは 2つのベクトルがどれくらい同じ向