タグ

ブックマーク / resola.ai (1)

  • BoW+SVMで文書分類(1) | developer's blog

    はじめに 機械学習を用いドキュメント分類を行う為には、文書自体を数値(ベクトル)として扱う必要がある。文書を数値として扱う代表的な方法としては、Bag of Words(BoW)がある。これは、全文書中に登場する単語を並べて、各単語の出現頻度をベクトルで表す表現である。 今回、Livedoor Newsコーパスの各文書をBoWでベクトル化し、そのデータを用いて、カテゴリ分けする文書分類器を作成してみる。 Livedoor Newsコーパスについて 以下のURLよりLivedoor Newsコーパスをダウンロードできる。 Livedoor Newsコーパスは、ニュースカテゴリ毎にディレクトリが分かれている為、文書分類器作成の学習データとして適している。 Livedoor Newsコーパス 9カテゴリ、7386文書 各種インストール Python3及び以下のライブラリ群を用いて実装した。 Me

  • 1