タグ

2020年5月3日のブックマーク (1件)

  • scikit-learnでtf-idfを計算する - Qiita

    この投稿は現実逃避アドベントカレンダー2013の4日目の記事です。 2日目の記事でBing APIを使ってフェッチしたhtmlを使うので、2日目を先に読んでおくと理解しやすいです。 稿を3行でまとめる scikit-learnというPythonのライブラリを調べた 2日目で保存したhtml内の語のtf-idfを計算した 語とtfidfのマッピングを確認した 参考 scikit-learn公式、テキストの素性抽出ドキュメント scikit-learnを使ってTweet中の単語のtfidf計算 完成品 Fork me! 理論 tfidfの定義 tf-idfは tf * idf の値。あるドキュメント(文書)集合において、あるドキュメントの、ある単語につけられる。tf-idfが高い語は重要と考えることができる。情報検索において、語への重みづけに使える。 tf (Term Frequency)は

    scikit-learnでtf-idfを計算する - Qiita