タグ

SVMと機械学習に関するbeen6のブックマーク (6)

  • Classias - 使い方 -

    Windows環境の場合は,配布されている実行ファイルを利用するのが最も簡単です.ただし,配布されている実行ファイルを利用するには,システムにVisual C++ 2008 SP1 再頒布可能パッケージ (x86)がインストールされている必要があります. Linux環境の場合は,ソースコードからビルドしてください. ビルド方法は,こちらを参照してください. Classiasは二値分類(binary classification),多クラス分類(multi-class classification),候補選択(candidate classification)の3つのタスクをサポートします. 二値分類は,与えられた事例の素性(属性)に基づいて,事例を正例(+1)もしくは負例(-1)に分類するタスクです. 事例のラベルには,"+1", "1", もしくは"-1"を用いることができ,ラベルにコロ

  • 機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン- - Data Science by R and Python

    機械学習とは? 今日は、機械学習をテーマにしてブログを書いてみます。「機械学習」と言えば、Googleなわけですけど、最近Googleワールドカップの勝敗予想を機械学習で行って「すげー!」っておそらく一部界隈では盛り上がりました。最近では一般にも「機械学習」という言葉は少しづつ普及しつつあるようです。Google Trendで見ても、右肩上がりです。 ただ、機械学習という言葉(Machine Learning)という言葉は情報分野で比較的昔からあるようです。アメリカの科学者はトム・M・ミッチェルはこんな定義を与えています。 コンピュータプログラムがある種のタスクTと評価尺度Pにおいて経験Eから学習するとは、タスクTにおけるその性能をPによって評価した際に、経験Eによってそれが改善されている場合である 簡単にいえば、あるタスクをこなして、それを「評価尺度P」で測ったときに、経験「E」(:デ

    機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン- - Data Science by R and Python
  • SVMを使うとなにが嬉しいの?

    SVM を使うと,なにが嬉しいの? 戻る さて,SVM(Support Vector Machine)と言われるものが最近,巷(って言っても,主にパターン認識の分野だけどね)をにぎわしているんだけれど,いったいなにがすごいのだろう? SVMは,パターン識別手法の一つなんだけれども,これまでもパターン識別手法というのはいくつも提唱されている. ニューラルネットワークを使ったパターン識別手法として最も親しみ深いのは,多層パーセプトロンをバックプロパゲーションで学習させる方法だけれど,SVMはバックプロパゲーション学習と比べてどんな「嬉しい」ことがあるんだろうか. ぶっちゃけた話,SVMの最大の特徴は「マージン最大化」にある.じゃあこの「マージン最大化」とは,なんだろう. ここで,「識別線の引き方」というものを考えてみたい. まず,2次元の特徴空間に次のような2つのクラスAと

  • 線形SVM 〜 詳細説明 〜

    線形SVM 〜 数式の説明 〜 戻る 前ページで線形SVMのコーディングに必要な式を紹介したけれど,それだけでは納得できん,中身までちゃんと教えてくれ,という向きには,このページでちゃんと説明する. 前ページの再掲になるけれど,線形識別関数を次のように定義する. ただし. (1.1) は入力ベクトル,ベクトルおよびスカラーは識別関数を決定するパラメータ. 学習データは個与えられているとし,と表す.これらのデータを2つのクラスおよびに分離することを考える.この学習データ集合に対して,が次の条件を満たすようにパラメータを調節することを考える. (1.2) (OpenOfficeの数式ツールで左括弧ってどうやって出すの?) ところで,点から分離境界との距離はとなる(どうしてそうなるかって?それは自分で考えてみてね). ということは,(1.2)式を満たす識別関数において,学

  • Sakusaku svm

    4. Postする前に ウケルかどうか 判定してみたよ あんちべのすべらない話 ~俺のツイートがこんなにウケないはずがない~ http://www.slideshare.net/AntiBayesian/ss-8487534 4 5. 分析の流れ 1.学習データ(正例、負例)を用意する 2.学習データから予測モデルを立てる ➢ 正例・負例の特徴を抽出し、どのような要素を持てば正 負のどちらかに判別出来るかを学習する 3.対象のtweetを予測モデルに放り込んで判定 ➢ 正例の特徴を強く持つtweetは正例のクラスへ、負例の 特徴を強く持つtweetは負例のクラスへ、分類器で自動 分類 5 6. 正例、負例の例 ● スパムアカウントかどうか見分けたい ➢ 正例:スパムアカウント、負例:非スパムアカウント ● デマ情報かどうか判別したい ➢ 正例:デマtweet、負例:正しいtweet ● 正

    Sakusaku svm
  • SVMはパラメータ最適化と同時にモデル選択もしてくれる - 憂鬱な情報系学生

    パターン認識の課題でよく使うのがSVM。 パッケージはSVM-lightを愛用。 入力次元が多いときには「とりあえずSVMでしょ」的な安易な使い方も 良くするのですが、理由はやっぱり”次元の呪い”に強いってとこですね。 (次元の呪い「Curse of dimension」って文学的響きが、カッコイイ) 一般的に、得られるデータに比べて 機械学習器の複雑さ(complexity)が大きすぎると 過学習(Overfitting)に陥りやすい。 階層ニューラルネットワークなどの機械学習器は 入力次元増えるとそれだけ最適化パラメータが増えちゃうので、 過学習しやすくなってしまう訳ですね。 最適化パラメータの数の増加は、学習器の複雑さの増加ですから。 だから、データ数が少ないのに、入力次元がでっかいと 過学習に陥ってしまう。 これが”次元の呪い” 直感的には「1つのデータについてたくさんの情報があれ

    SVMはパラメータ最適化と同時にモデル選択もしてくれる - 憂鬱な情報系学生
  • 1