前回の記事で考えたシェル・スクリプトをベースにして,SVM-light 用のデータ・ファイルを作成するシェル・スクリプトを考えてみました. SVM-light のデータ・ファイルのフォーマットは, ラベル 属性番号:値 属性値番号:値 ... というものです. 属性番号:値 の組は,値が 0 のものは省略できます. ラベルは,正事例のとき 1,負事例のとき -1 です. また,トランスダクティブ学習のためのラベルなし事例のラベルは 0 です. つまり,(0, 1, 1, 0) というベクトルで表される正事例と (1, 1, 0, 0) というベクトルで表される負事例は 1 2:1 3:1 -1 1:1 2:1 と表されます. SVM を用いてテキスト分類を行うためには,テキスト(文書)をベクトル・データで表現する必要があります. やりかたはいくつかありますが,ここでは,特徴語のプレゼンス(
svm_lightの使用 参考ページ http://www.kazamiya.net/svm/svm-light_install.html ソース http://download.joachims.org/svm_light/current/svm_light.tar.gz コンパイル 501 mkdir svm-light 502 cd svm-light 500 wget http://download.joachims.org/svm_light/current/svm_light.tar.gz 509 gzip -d svm_lig* 513 tar -xvf svm_light.tar 516 make 使い方: http://www.eml.ele.cst.nihon-u.ac.jp/~momma/wiki/wiki.cgi/SupportVectorMachine/SVMli
SVMlightには、svm_learnとsvm_classifyがある。 svm_learnは学習用で、トレーニングデータを使う。 svm_classifyは、svm_learnで作った学習器でテストデータを分類する。 1、svm_learnの使い方 svm_learn [options] training.dat model_file training.datは、トレーニングデータ。用意しておく。 model_fileは、出力ファイル。これを使って、後で、svm_classifyを行う。 2、トレーニングデータの形式 一般的には、下のような形式。 ---------------------------------------------------- <line> .=. <target> <feature>:<value> <feature>:<value> ... <feature
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く