タグ

SVMに関するjohshishaのブックマーク (3)

  • BoW+SVMで文書分類(1) | developer's blog

    はじめに 機械学習を用いドキュメント分類を行う為には、文書自体を数値(ベクトル)として扱う必要がある。文書を数値として扱う代表的な方法としては、Bag of Words(BoW)がある。これは、全文書中に登場する単語を並べて、各単語の出現頻度をベクトルで表す表現である。 今回、Livedoor Newsコーパスの各文書をBoWでベクトル化し、そのデータを用いて、カテゴリ分けする文書分類器を作成してみる。 Livedoor Newsコーパスについて 以下のURLよりLivedoor Newsコーパスをダウンロードできる。 Livedoor Newsコーパスは、ニュースカテゴリ毎にディレクトリが分かれている為、文書分類器作成の学習データとして適している。 Livedoor Newsコーパス 9カテゴリ、7386文書 各種インストール Python3及び以下のライブラリ群を用いて実装した。 Me

  • scikit-learnで機械学習を試す SVM - Qiita

    こんにちは。初心者です。 あるサービス(念写できる人と何か念写してほしい人のマッチングサービスです)で機械学習ためそうと思っていて、調べている最中です。 問題 試しに、これの1問目を解くよー。 教師あり学習の問題です。上記ページの回答例のように、SVMを使ってみます。 ライブラリは、scikit-learnを使ってみた。 SVM使いたいだけならほかにもライブラリあるみたいだけど、scikit-learnいいよ~的なことを言う人が多いので使ってみました。 とりあえずやってみる # -*- coding: utf-8 -*- from sklearn.svm import LinearSVC import numpy as np # 学習データ data_training_tmp = np.loadtxt('CodeIQ_auth.txt', delimiter=' ') data_train

    scikit-learnで機械学習を試す SVM - Qiita
  • scikit-learnのSVM(SVC)の処理速度について - Qiita

    2016.09.14 処理時間のバラつきについて追記しました scikit-learnのSVC(rbfカーネルとlinearカーネル)とLinearSVCの処理速度を比較してみました. 利用したデータはRのkernlabパッケージに含まれているspamデータです. 説明変数は4601サンプル,57次元, ラベルはspam:1813サンプル,nonspam:2788サンプルです. サンプル数,次元数を変えた時の結果は以下の通りです. SVCのlinearカーネルが遅すぎますね. ついついカーネル種別まで含めてグリッドサーチしてしまいたくなりますが, きちんとLinearSVCを使ったほうが良さそうです. 検証用コードは以下. 処理時間計測の都合でパラメータCを振っています. また特徴量選択(次元削減)はRandomForestのfeature importanceを利用しました. これは適当

    scikit-learnのSVM(SVC)の処理速度について - Qiita
  • 1