機械学習のツールとして、scikit-learnは非常に使いやすいPythonのパッケージとされています。 このパッケージには、例えば交差検定の評価を繰り返して、 分類器に良さそうなパラメータを「検索」してくれるGridSearchなど、 研究をスムーズに進行させるための便利な機能がたくさん搭載されています。 一方、言語処理におけるクラスタリングやクラス分類問題の手がかりとして、 文書にある単語がよく使われます。 これらの単語は、文書/文によって頻度分布に偏りがあるため、 単語頻度からなる素性ベクトルに対してtf-idfによる正規化を行うことが普通です。 scikit-learnでtf-idfを計算 scikit-learnでは、テキスト群に対してtf-idf値を計算する機能が用意されており、 TfidfVectorizerと呼ばれるクラスによりこの機能を簡単に実現できます。
![scikit-learnのtf-idfについて | Synergy LAB | シナジーマーケティング株式会社 R&D](https://cdn-ak-scissors.b.st-hatena.com/image/square/b157e3f7ddc250daa777140ba38ce6633161bb66/height=288;version=1;width=512/http%3A%2F%2Flab.synergy-marketing.co.jp%2F__wp%2Fwp-content%2Fuploads%2F2014%2F05%2Fogimage_w.png)