タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

sklearnに関するyukinoiのブックマーク (1)

  • scikit-learnで単語文書行列を作る方法の比較 - くじらにっき++

    目的 テキストデータから特徴ベクトルを作って何かやろうと思ったときに,私の場合は何も考えずに単語文書行列を作ってナイーブベイズのようなベースライン的な手法を試すところからはじめます。単語文書行列というのは以下のページに載っているような行列です。英語ではDocument-Term Matrixといいます。 ベクトル空間モデル - Wikipedia Wikipediaに載っているように,行方向に単語,列方向に文書を並べるのが普通です。ただし,scikit-learnの慣習では行方向に事例,列方向に素性を並べるため,逆になります。 語のリストから単語文書行列を作るときには,(a) collections.Counterとsklearn.feature_extraction.DictVectorizerを使う方法 がシンプルでおすすめです。一方で,scikit-learnにはsklearn.fe

    scikit-learnで単語文書行列を作る方法の比較 - くじらにっき++
  • 1