タグ

PRMLに関するsatojkovicのブックマーク (142)

  • Jubatusを公開しました - Preferred Networks Research & Development

    先日、NTTと共同研究開発したJubatusを公開しました。 OSSで公開されてますので、興味がある方は使ってみるなり、ソースコードを眺めるなり、できればプロジェクトに参加していただけたらと思います。 Jubatus(ユバタス)は、大規模分散上でリアルタイムで機械学習を行うためのフレームワークです。 このプロジェクトは元々、機械学習やデータ解析が好きなPFIと、ネットワークやシステム運用実績が豊富で技術力があるNTT情報流通プラットフォーム研究所と組んで何かできないかということで始めました。 「大規模分散」+「リアルタイム」+「深い解析」という三つの特徴を持った上でデータを分析するためにどのようなアーキテクチャが考えられて、その上でどのような解析ができるのかというのを日々試行錯誤して作っています。 今回はリリース第1段ということで、手法としては分類(教師有学習の多クラス分類)に絞ってOSS

    Jubatusを公開しました - Preferred Networks Research & Development
  • 図(だけ)で説明する回帰分析 - 社会学者の研究メモ

    分かっているようで意外と分かっていないのが回帰分析です。回帰分析の考え方をできるだけ図だけで説明した資料を作りましたので、適宜ご参照ください。 「(ほぼ)図(だけ)で説明する回帰分析」(PDF) 主な内容は、以下のとおりです。 説明変数と撹乱項の相関の理解 予測値の信頼区間をプロットすることの重要性の理解 「変数をコントロールする」ということで曖昧に理解されている内容の理解

    図(だけ)で説明する回帰分析 - 社会学者の研究メモ
  • Google Prediction API - Google Code

    How do I start? Learn more about Google Prediction API. Request access. Try out the sample code. What is the Google Prediction API? The Prediction API enables access to Google's machine learning algorithms to analyze your historic data and predict likely future outcomes. Upload your data to Google Storage for Developers, then use the Prediction API to make real-time decisions in your applications.

  • 「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足

    社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれている。*1 PRML のための数学(PDF) 内容は PRML の2章から4章と、9章、PRMLでもっとも計算が難しいと評判の10章を対象としている。 たとえば2章のアンチョコでは、2章の中で必要とされる解析や線形代数の道具(積分の変数変換、行列の各種操作)を一通り取り上げた後、ガウス分布の最尤推定における平均や分散による偏微分という、おそらく多くの人がつまづくのだろう計算がきちんと説明されている。 また3章のアンチョコでは、Woodbury の公式やヘッセ行列を解説しつつ、エビデンス関数などを導出しているし、4章になる

    「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足
  • 本のフロク: コンピュータ科学論文

    Evidence Contrary to the Statistical View of Boosting David Mease, Abraham Wyner; 9(Feb):131--156, 2008. AdaBoostは強力な学習アルゴリズムである。しかも、2000年代になって、Additive Modelという統計モデルの上で論じられ、なぜAdaboostやその派生アルゴリズムが良好なのか、解析が進んできた。学習を繰り返しても過学習を起こさない、といわれてきたが、その後の研究で、その反例がいくつも報告されているように、未解明な問題も残っている。この論文では、弱学習器には決定木よりもDecision Stumpの方がよい、決定木の場合に多数学習を繰り返すと過学習を起こす、指数損失よりも二項対数尤度最小化の方がよい、学習回数を打ち切ったほうがよい、インスタンスウェイトの変更を穏やか

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • ImageNet

    ImageNet Large Scale Visual Recognition Challenge 2011 (ILSVRC2011) Introduction Data Task Development kit Timetable Submission Citationnew Organizers Contact Signup News September 2, 2014: A new paper which describes the collection of the ImageNet Large Scale Visual Recognition Challenge dataset, analyzes the results of the past five years of the challenge, and even compares current computer accu

  • 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei

    ニーズがあるのかさっぱりわからない機械学習超入門だけどひっそり続けていきたい。 前回は識別関数の基礎であるパーセプトロンの簡単な説明とPerlによる実装を解説した。実はこの時点でかの有名なSVM(Support Vector Machine、サポートベクターマシン)もほぼ完成していたのだ!というわけで今回はSVMをPerlで作ってしまうお話。 参考: これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 機械学習超入門II 〜Gmailの優先トレイでも使っているPA法を30分で習得しよう!〜 - EchizenBlog-Zwei 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei さて

    機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei
  • ベイズの公式は地味に難しいので、確率の乗法公式を2回使おう - 木曜不足

    ベイズの公式はこんな形をしている。 これは実際に使おうと思ったら、意外と難しい。 例えば PRML (5.164) 式はこうなっている。 これをベイズの公式から出そうとしたら X と Y をどうしたらいいのやら。いや、なんか X と Y に当てはめようがないのもあるぞ。 そもそも「ベイズの公式を正しく憶える」のもなにげにハードルが高い。えーと、X と Y と X|Y と Y|X のどれが上で下で……。 でも、確率の乗法公式を2回使う方法なら、簡単。 まず同時分布を見極める。 上の (5.164) 式の右辺 p([A]|・)p([B]|・) の [A][B] の位置に出てくる変数に注目しておいて欲しい。 同時分布の確率変数は [A] と [B]、つまり w と D であり、残りは given なパラメータ or 変数なので、 がここで注目したい同時分布。 次はこの同時分布を [A] に使われ

    satojkovic
    satojkovic 2011/06/20
    公式は瞬時に導ける
  • Machine learning expert Prof Chris Bishop - The Engineer

    Machine head: Computer science is set to enter a golden age, according to Microsoft Research’s Chris Bishop The prestigious Royal Institution Christmas Lectures have been inspiring young engineers since Michael Faraday began them in 1825. Over the years, millions of excitable children have sat alongside equally excited adults as the likes of David Attenborough and George Porter have attempte

    Machine learning expert Prof Chris Bishop - The Engineer
    satojkovic
    satojkovic 2011/06/08
    ビショップ先生のインタビュー
  • 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei

    機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 そこで早速パーセプトロンを作ってみよう!というのが記事の意図するところ。自分で実装できるとモチベーションが維持しやすいので、詳しく理論を学ぶ前にまずは作ってみようという考え。ちなみに実装にはperlを用いた。 参考: これからはじめる人のための機械学

    機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei
    satojkovic
    satojkovic 2011/06/07
    わかりやすいー
  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

  • Machine Learning cheat sheet | Home of Emanuel Ferm

    For a recently taken course in Machine Learning, a substantial part involved learning and applying linear classifiers and clustering algorithms on smaller data sets. In order to summarise the most important material, I created a cheat sheet in LaTeX. I figured someone else might appreciate it as well, so why not make it available for more people than myself? .pdf can be downloaded here. .tex-file

    Machine Learning cheat sheet | Home of Emanuel Ferm
  • Complement NaiveBayesを実装したよ - kisa12012の日記

    レッドブルとカレーが美味しい季節になりました. 前回,ナイーブベイズを実装した後, 「どうせならComplement NaiveBayesも実装してしまいなよ.」 という天からの声が聞こえた気がしたので,実装してみました. Complement NaiveBayesとはなんぞや,という方は,以下の記事で非常に丁寧に解説されているので,そちらを参照ください. こちらでも簡単に説明すると,Complement NaiveBayesはそのクラスに「属しない」記事を用いて,文書に対する尤度を計算します.そして,尤度が一番「低い」クラスを予測結果として出す手法です.NaiveBayesと反対ですね.その性質上,2クラスの場合はNaiveBayesとComplement NaiveBayesは結果が一致します. 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ

    Complement NaiveBayesを実装したよ - kisa12012の日記
  • PRML 読んでやってみた(下巻編) - 木曜不足

    昨日の記事を書いて、そういえば「パターン認識と機械学習」(以下 PRML) 上巻については「やってみた」「試してみた」系の記事をまとめページを作っていたことを思い出した。 PRML 読んでやってみた(上巻編) http://d.hatena.ne.jp/n_shuyo/20100505/prml そして、これの下巻編を作るの忘れてたので、ここにまとめておこう。 基的には PRML を読む中で、当にそうなのかなというあたりを手を動かしてみて確かめてみたという内容。実装は主に R で、たまに Python + numpy を使っている。 専門でない人間がやっているわけで、いろいろ間違っているかもしれない点はあらかじめ(実際、変分ベイズのときは盛大に間違えてた)。 6章 カーネル法 PRML6章「ガウス過程による回帰」を R で試す http://d.hatena.ne.jp/n_shuyo

    PRML 読んでやってみた(下巻編) - 木曜不足
  • PRML 読んでやってみた(上巻編) - 木曜不足

    今までに書いた「 PRML を読んで、やってみた」系の記事をまとめてみた。何か参考になれば幸い。 根的にとても疑り深い人(教科書の類に対しては特に)なので、「こんなん書いてあるけど、ほんまかいな〜?」という姿勢が目立つ。 また、よく「手触り」という言葉が出てくる。なんというか、「感触」がわからないと気持ち悪いのだ。基的な道具類は目をつむっていても使えるのが理想、と言えば、なんとなくでもわかってもらえるだろうか。 あと、言葉使いに無駄に小うるさい(苦笑)。多くの人にとってはどうでもいいところで妙にこだわっているかも。 下巻編はこちら。 PRML 読んでやってみた(下巻編) http://d.hatena.ne.jp/n_shuyo/20110519/prml 1章&2章 特に実装とかしてない。 ディリクレ分布のパラメータが0のとき http://d.hatena.ne.jp/n_shuy

    PRML 読んでやってみた(上巻編) - 木曜不足
  • ノンパラメトリックベイズ法

  • Apache Mahout - Random Forests - #TokyoWebmining #8

    The document discusses social media, social graphs, personality modeling, data mining, machine learning, and random forests. It references social media, how individuals connect through social graphs, modeling personality objectively, extracting patterns from data through data mining and machine learning techniques, and the random forests algorithm developed by Leo Breiman in 2001.Read less

    Apache Mahout - Random Forests - #TokyoWebmining #8
  • 主成分分析の基礎知識

    検索エンジンから直接きたひとは、フレーム目次が便利です。ここは 4章から入ります。 お急ぎで「主成分分析とは」を知りたい方は簡略版へどうぞ。 エクセルで層別散布図・等高線図を描きたい人は(おまけ)へ。 主成分といえば、むずかしそうに聞こえる。でももう君達は高校生のときに学校で教わっているのさ。 X軸とY軸の散布図を書いて、点々の真中ほどに直線を引いたろう?あれが第1主成分。 一番データの点々の広がった部分に直線を引いたはずだね。 第2主成分は、XとYの平均値(重心)を通って、第1主成分である直線に直角の線を引くと出来上がり。 主成分分析の計算過程を数学音痴向けに説明するね。 空中にまとまった点々があるから思い浮かべなさい。カトンボが空中を舞っている姿とか、子魚が群れをなして泳いでいる姿を思い浮かべるのじゃよ。 点々の分布が一番広がったところに、重心をとおってまず最初の直線を引きます。 フラ

  • 識別モデルと識別学習 - 射撃しつつ前転 改

    "Discriminative models, not discriminative training", Tom Minka, 2005 (pdf) を久々に読み返してみた。完全に理解したとは言えないけど、それほど難しい内容でもなかった…ような気がする。 この論文(?)の主張は2つある。まず、あるモデルに対する最尤解はひとつしかないのだから、識別的学習、という単語はおかしいよね、モデルが違うんだから識別モデルと呼ぶべきだよね、という論点がひとつ。当時は「HMMの識別的学習」みたいな論文が結構あったことに対して、用語法がおかしいんじゃないの、というツッコミである。これは簡単に納得できる。 主張はもう一つ、生成モデルと識別モデルの間の関係をもうちょっと明らかにする、という話である。 生成モデルではp(C,X,θ)を最大化するのに対し、識別モデルではp(C,θ|X)を最大化する。ここで、識別モ

    識別モデルと識別学習 - 射撃しつつ前転 改
    satojkovic
    satojkovic 2011/04/20
    識別モデル、生成モデル。