下巻に入って7章のサポートベクトルマシン(Support Vector Machine: SVM)を実装してみます。SVMに関しては、有名なSVMのライブラリ(libsvm)を使ったことがあるだけで、アルゴリズム詳細はPRMLで初めて学習しました。なので変なことを書いていたらコメント欄で指摘してもらえると助かります。 まずは、一番簡単な線形SVMを実装してみます。今までと同様に直線(超平面)でデータが完全に分離できる場合です。PRMLの7章には特に説明がありませんが、カーネル関数に下の線形カーネル(データのただの内積)を用いた場合に相当するようです。このカーネル関数を多項カーネルやガウシアンカーネルに変更すると線形分離不可能なデータも分類できるようになるとのこと。非線形SVMは次回ためしてみます。 まず、SVMの識別関数は、式(7.1)で表せます。 今までと違ってバイアスパラメータをまとめ
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス
新年度第1回の助教の会は数理6研の林浩平さんに「Generalization of Tensor Factorization and Applications」というタイトルで話して頂きました。林さんは3月に奈良先端科学技術大学院大学情報科学研究科で博士号を取得し、4月から日本学術振興会特別研究員として数理6研に所属しています。 林さんは博士課程の間からデータマイニングにおけるテンソル分解 (Tensor Decomposition) と呼ばれる手法を研究しています。今回は二つの話題を紹介していただきました。前半はノイズにガウス分布を仮定しない多種多様な要素を持つテンソルに対するテンソル分解、後半はテンソルに低ランク性を仮定しないテンソル分解です。 前半のお話は、一昨年の国際会議ICDM2010で発表[1]された、多種多様な(ヘテロな)要素を持つテンソルに対するテンソル分解です。 そもそも
Support Vector Machines (Information Science and Statistics) 作者: Ingo Steinwart,Andreas Christmann出版社/メーカー: Springer発売日: 2008/08/29メディア: ハードカバー クリック: 17回この商品を含むブログを見る libsvm LIBSVM -- A Library for Support Vector Machines R言語でSVM(Support Vector Machine)による分類学習 - Yuta.Kikuchiの日記 前回RでのSVMを簡単に紹介しましたが、今日はlibsvmを利用したirisの分類学習を行いたいと思います。libsvmは導入がめちゃくちゃ簡単なところが売りだと思います。zipをlibsvmサイトからdownloadして展開してgmakeで
Neural networks have been a bit of a punching bag historically: neither particularly fast, nor robust or accurate, nor open to introspection by humans curious to gain insights from them. But things have been changing lately, with deep learning becoming a hot topic in academia with spectacular results. I decided to check out one deep learning algorithm via gensim. Word2vec: the good, the bad (and t
スレットスコア (Threat Score, TS) とは、稀な現象・事象を2値のカテゴリで予報・推定する手法についてその性能を評価する指標の1つである。天気予報などの分野で主に用いられ、Critical Success Index (CSI, 重要成功指数) と呼ばれることもある。 解説[編集] 例えば年間360日以上晴れている地域では、人工衛星やスーパーコンピューターなどを用いなくても常に晴れの予報を出しておけば適中率は99%近くなる。しかしこの場合に価値があるのは、この地域では稀な現象である降雨を予報し適中することであるため、適中率という指標では予報手法の性能や価値を評価できない。このような場合、稀な事象を適中させる性能を評価する指標の1つとしてスレットスコアが用いられる。 スレットスコアは、情報検索技術の性能評価に用いられるF値 (F-score, F-measure) と類似した
問題設定や細かい実験手法は下のページを参照. scikit.learn手法徹底比較! イントロダクション 今回は言わずと知れたSVM(サポートベクターマシン)を試す. 訓練データ数を増やしていったときに, 手書き文字の分類性能がどのように推移していくかを調べる. SVMの詳細な解説は別の文献を引いて欲しい. PRMLを読んでもいいしこのスライドは結構わかりやすい. 概略だけ書くとSVMは2クラス分類のためのアルゴリズムである. データが散らばる多次元空間を超平面で区切り, データを2つに分類する. その超平面をマージン最大化という基準でひくとわりとうまく行くねというアルゴリズムである. そこで元の空間で分類できなくともカーネルで定義された別の空間だとうまく行くことがあるため, 分野によって様々なカーネルが考案されている. カーネルは2つのデータを引数として取る関数でその値はおそらく類似度を
References: P. Winston, 1992. C4.5 is a software extension of the basic ID3 algorithm designed by Quinlan to address the following issues not dealt with by ID3: Avoiding overfitting the data Determining how deeply to grow a decision tree. Reduced error pruning. Rule post-pruning. Handling continuous attributes. e.g., temperature Choosing an appropriate attribute selection measure. Handling trainin
Machine Learning for Hackers 作者: Drew Conway,John Myles White出版社/メーカー: Oreilly & Associates Inc発売日: 2012/02/28メディア: ペーパーバック クリック: 63回この商品を含むブログを見る 機械学習の評価方法について学習 機械学習初心者ですが最近業務で本格的に触り始めています。少し前までSmartPhoneのWebAppliを作ることを専門職としていたので機械学習の領域は未知な事が非常に多く、用語の意味ですら十分に理解できていません。今日は機械学習の評価方法を中心に学習(勉強)した内容を記録して行きます。例えばPrecision/Accuracy/Recallの言葉の違いやROC曲線,AUC評価などの技法といったものが話の中心になります。初心者視点で書いていますので専門性がありません。間
こんにちは、馬場です。 はい。無事完走しました! 報告がだいぶ遅くなりましたが、第9週、第10週の内容と講義全体の総括をしたいと思います。 16. 異常検出 今回は異常なデータを検出するアルゴリズムです。例えば、洪水などの災害の検知や製品を作る上で異常なものを除く場合に利用します。まず、データが平均μ、分散σの正規分布だと仮定します。この平均や分散は、学習データから算出します。すると、この情報から特定のデータの出現確率が求められます。そして出現確率があるしきい値εよりも小さい場合に、異常と判定するのです。 異常検出モデルを作成する場合にデータを収集した場合、当然異常データが含まれているとしてもほんのわずかでしょう(だって異常なのですから)。このデータをクロスバリデーション用のデータと学習データに分ける場合、学習データは正常データのみで作成し、クロスバリデーションデータやテストデータに、異
タイトルの論文はCommunication of the ACM, 2012のレビュー記事 ドラフトバージョンは下のリンクから読める。 http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf 割と面白かったのでいくつか内容を紹介 概要 機械学習システムはデータから自動でタスク(スパムフィルタ、レコメンドなど)をどうやって実行するかを見出すことができます。 しかしながら機械学習システムを成功させるには教科書を読んだだけではなかなか見つけづらいお約束事とかがあって、思うようには行かないことが多い。 本文献では機械学習の研究者および実務に携わる人間が知っておくべきである事柄を12個に要約しています。 一般化が重要 機械学習のゴールは訓練データにはないデータに対しても一般化して推定ができるという点になります。単に訓練データのみ分類できればよ
TinySVM is an implementation of Support Vector Machines (SVMs) [Vapnik 95], [Vapnik 98] for the problem of pattern recognition. Support Vector Machines is a new generation learning algorithms based on recent advances in statistical learning theory, and applied to large number of real-world applications, such as text categorization, hand-written character recognition. List of Contents What's new Fe
皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の
License (except test directory): GNU GPLv2, LGPLv2.1, and BSD; or e-mail me for other licenses you want. NOTE: The distribution includes in test directory the labeled examples for a transition-based dependency parser and hyponymy relation identification, all of which are used in the paper. Download & Setup > wget http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/opal/opal-latest.tar.gz > tar zxvf opal-lates
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く