Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この投稿は現実逃避アドベントカレンダー2013の4日目の記事です。 2日目の記事でBing APIを使ってフェッチしたhtmlを使うので、2日目を先に読んでおくと理解しやすいです。 本稿を3行でまとめる scikit-learnというPythonのライブラリを調べた 2日目で保存したhtml内の語のtf-idfを計算した 語とtfidfのマッピングを確認した 参考 scikit-learn公式、テキストの素性抽出ドキュメント scikit-learnを使ってTweet中の単語のtfidf計算 完成品 Fork me! 理論 tfidfの