タグ

tf-idfに関するmeganiiのブックマーク (2)

  • scikit-learnのtf-idfについて | Synergy LAB | シナジーマーケティング株式会社 R&D

    機械学習のツールとして、scikit-learnは非常に使いやすいPythonのパッケージとされています。 このパッケージには、例えば交差検定の評価を繰り返して、 分類器に良さそうなパラメータを「検索」してくれるGridSearchなど、 研究をスムーズに進行させるための便利な機能がたくさん搭載されています。 一方、言語処理におけるクラスタリングやクラス分類問題の手がかりとして、 文書にある単語がよく使われます。 これらの単語は、文書/文によって頻度分布に偏りがあるため、 単語頻度からなる素性ベクトルに対してtf-idfによる正規化を行うことが普通です。 scikit-learnでtf-idfを計算 scikit-learnでは、テキスト群に対してtf-idf値を計算する機能が用意されており、 TfidfVectorizerと呼ばれるクラスによりこの機能を簡単に実現できます。

    scikit-learnのtf-idfについて | Synergy LAB | シナジーマーケティング株式会社 R&D
  • TF-IDF Cos類似度推定法 - Qiita

    TF-IDF Cos類似度推定法は文書の類似度を計算するのによく使われている方法です。大きく分けて、 TF-IDFの計算 Cos類似度の計算 の二つのステップに分かれます。 TF-IDFの計算 TF-IDFは名前の通り、TFとIDFの積を表しています。ある単語のTF-IDFがその単語の重要度になります。

    TF-IDF Cos類似度推定法 - Qiita
  • 1