[B! SVM] johshishaのブックマーク

johshisha id:johshisha

SVMに関するjohshishaのブックマーク (3)

BoW+SVMで文書分類（１） | developer's blog
はじめに機械学習を用いドキュメント分類を行う為には、文書自体を数値（ベクトル）として扱う必要がある。文書を数値として扱う代表的な方法としては、Bag of Words(BoW)がある。これは、全文書中に登場する単語を並べて、各単語の出現頻度をベクトルで表す表現である。今回、Livedoor Newsコーパスの各文書をBoWでベクトル化し、そのデータを用いて、カテゴリ分けする文書分類器を作成してみる。 Livedoor Newsコーパスについて以下のURLよりLivedoor Newsコーパスをダウンロードできる。 Livedoor Newsコーパスは、ニュースカテゴリ毎にディレクトリが分かれている為、文書分類器作成の学習データとして適している。 Livedoor Newsコーパス 9カテゴリ、7386文書各種インストール Python3及び以下のライブラリ群を用いて実装した。 Me
johshisha 2017/04/24
機械学習

自然言語処理

SVM

gensim
リンク
scikit-learnで機械学習を試す SVM - Qiita
こんにちは。初心者です。あるサービス（念写できる人と何か念写してほしい人のマッチングサービスです）で機械学習ためそうと思っていて、調べている最中です。問題試しに、これの1問目を解くよー。教師あり学習の問題です。上記ページの回答例のように、SVMを使ってみます。ライブラリは、scikit-learnを使ってみた。 SVM使いたいだけならほかにもライブラリあるみたいだけど、scikit-learnいいよ~的なことを言う人が多いので使ってみました。とりあえずやってみる # -*- coding: utf-8 -*- from sklearn.svm import LinearSVC import numpy as np # 学習データ data_training_tmp = np.loadtxt('CodeIQ_auth.txt', delimiter=' ') data_train
johshisha 2016/03/09
scikit-learn

SVM
リンク
scikit-learnのSVM（SVC）の処理速度について - Qiita
2016.09.14 処理時間のバラつきについて追記しました scikit-learnのSVC（rbfカーネルとlinearカーネル）とLinearSVCの処理速度を比較してみました．利用したデータはRのkernlabパッケージに含まれているspamデータです．説明変数は4601サンプル，57次元，ラベルはspam:1813サンプル，nonspam:2788サンプルです．サンプル数，次元数を変えた時の結果は以下の通りです． SVCのlinearカーネルが遅すぎますね．ついついカーネル種別まで含めてグリッドサーチしてしまいたくなりますが，きちんとLinearSVCを使ったほうが良さそうです．検証用コードは以下．処理時間計測の都合でパラメータCを振っています．また特徴量選択（次元削減）はRandomForestのfeature importanceを利用しました．これは適当
johshisha 2016/03/09
scikit-learn

SVM
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx