[B! tf-idf] meganiiのブックマーク

meganii id:meganii

tf-idfに関するmeganiiのブックマーク (2)

scikit-learnのtf-idfについて | Synergy LAB | シナジーマーケティング株式会社 R&D
機械学習のツールとして、scikit-learnは非常に使いやすいPythonのパッケージとされています。このパッケージには、例えば交差検定の評価を繰り返して、分類器に良さそうなパラメータを「検索」してくれるGridSearchなど、研究をスムーズに進行させるための便利な機能がたくさん搭載されています。一方、言語処理におけるクラスタリングやクラス分類問題の手がかりとして、文書にある単語がよく使われます。これらの単語は、文書/文によって頻度分布に偏りがあるため、単語頻度からなる素性ベクトルに対してtf-idfによる正規化を行うことが普通です。 scikit-learnでtf-idfを計算 scikit-learnでは、テキスト群に対してtf-idf値を計算する機能が用意されており、 TfidfVectorizerと呼ばれるクラスによりこの機能を簡単に実現できます。
meganii 2016/08/13
tf-idf

scikit-learn
リンク
TF-IDF Cos類似度推定法 - Qiita
TF-IDF Cos類似度推定法は文書の類似度を計算するのによく使われている方法です。大きく分けて、 TF-IDFの計算 Cos類似度の計算の二つのステップに分かれます。 TF-IDFの計算 TF-IDFは名前の通り、TFとIDFの積を表しています。ある単語のTF-IDFがその単語の重要度になります。
meganii 2016/08/12
類似度

tf-idf
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx