エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Rubyで文章間の類似度を計算するモジュールを作ってみた(TF-IDFとCos類似度による推定) - Fire Engine
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Rubyで文章間の類似度を計算するモジュールを作ってみた(TF-IDFとCos類似度による推定) - Fire Engine
最近、自然言語処理に興味を持ち始めました。今回は、二つの文章(テキストファイル)の類似度を計算す... 最近、自然言語処理に興味を持ち始めました。今回は、二つの文章(テキストファイル)の類似度を計算するモジュールを作ってみました。いずれは、これを発展させていって、機械学習とかも組み込んで、Webサイトをユーザの嗜好に応じて推薦してくれるシステムとか作りたいなーって思っています。 今回の目次は以下のような感じです。 目次 なにをやるか つくったもの 採用したアルゴリズム 技術メモ 文章の類似度計算にはCos類似度 文章をベクトル化する 文章を単語分割する 文書内の単語の重み付け: TF-IDFについて IDFに何を採用するか 精度をあげるためにやりたいこと 形態素解析に用いる辞書の検討 IDF算出に用いる文書群の検討 単語の出現位置 今後やること なにをやるか ニュース記事を3つ取ってきて、その記事同士の関連がどれだけ強いのかを数値化します。比較するニュース記事は以下の三つで、それぞれ「A」「