mahler-5のブックマーク - はてなブックマーク

R言語 - tf-idfによる文書の特徴抽出 - Qiita
はじめに似たような文書がいくつかあって、それらの違いが何なのかを大まかに把握したいというシチュエーションはありませんか？例えば、とある製品の新機能を紹介した資料があって、昔と今のトレンドにどのような変化があるかを大まかに把握したい、というようなシチュエーションです。このような場合、文書の特徴を抽出する手法の一つである、tf-idf(Term Frequency - Inverse Document Frequency)を利用するとよいでしょう。 tf-idf は、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用されます。tf-idf を簡単にご説明すると、単語が１つの文書中にどれだけ出現するか、それと、全文書の中で単語が出現する文書がどれだけあるかを計算しています。詳しい計算式は Web で調べてもらえればすぐに見つかると思います。この Tips では、tf-
mahler-5 2020/06/02
tf-idf
リンク
1

はてなブックマーク