[B! ML] murawakiのブックマーク

情報幾何がわからないという話 (Mathematics Advent Calender 2日目) - じょうよわだけど

2013-12-02 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) 統計はじめに 2013年を振り返ると、なんといっても印象深かった出来事は「艦隊これくしょん（艦これ）」の爆発的なヒットです！今や日本人の100人に1人は提督であるという計算になり、艦これオンリーイベントが全国で開催されています。また、艦これ公式によるガイドブックが出版されるなど、関連グッズの展開も著しいです。艦これの今後のますますの躍進に期待ですね！さて、この2013年、もうひとつ印象深かった出来事は情報幾何の爆発的なヒットです！今や日本人の100人に1人は情報幾何をやっている計算になり、情報幾何オンリーイベントも開催されました。また、来年度には情報幾何公式によるガイドブック（※）が出版されるなど、関連グッズの展開も著しいです。情報幾何の今後のますますの

murawaki 2013/12/02

ML

リンク

Neural networks and deep learning

Neural Networks and Deep Learning What this book is about On the exercises and probl ems Using neural nets to recognize handwritten digits How the backpropagation algorithm works Improving the way neural networks learn A visual proof that neural nets can compute any function Why are deep neural networks hard to train? Deep learning Appendix: Is there a simple algorithm for intelligence? Acknowledge

murawaki 2013/11/28

ML

リンク

階層ディリクレ過程を実装してみる (3) HDP-LDA の更新式を導出 ( t の全条件付き分布) - 木曜不足

階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - 木曜不足階層ディリクレ過程を実装してみる (2) HDP-LDA の更新式を導出・前編 - 木曜不足しばらく間が空いたけど、今回も "Hierarchical Dirichlet Processes"(Teh+ JASA2006) を読んでいく。この論文の5章に HDP の更新式が、6.1 章では HDP-LDA について書かれているのだが、最初と途中と最後が書かれていないので、どうやって導出したのかも、HDP-LDA の実装に直接必要な最終的な式も、自力で考えないといけなくて、エンジニア涙目。今回見ていくのは 5章冒頭から 5.1章 Posterior sampling in the Chinese restaurant franchise の範囲。 HDP では DP が階層化されているの

murawaki 2011/08/04

ML

リンク

distance dependent Chinese Restaurant Process - nozyhの日記

お久しぶりです。nokunoさんにも紹介されてしまったので頑張って月1ぐらいは更新したいと思ってます…。今回は面白かった論文の紹介です。去年のICMLのBleiの論文で、相変わらずCRPとかです。ICML版はこちらで、longer versionもあり、こちらからダウンロード出来ます。ICML版でほとんどの部分は説明されてて、理論的に詳しいところが知りたい人はlonger versionも補足的に読むといいかもしれません。以前のエントリーで、DPMを説明するときに、CRPを介して説明出来るということを書きました。これはつまり、データをクラスタリングする場合、データの事前分布にCRPを仮定し、CRPの事後分布（レストランの状態の分布）がどうなるかを考え、同じテーブルに座ったデータ=客を同じクラスタとすることでクラスタリング出来ることを意味しています。この場合、背後にあるDPという構造を考え

murawaki 2011/07/18

ML

リンク

ロジスティック回帰でいろんな特徴関数を試す - 木曜不足

ロジスティック回帰＋確率的勾配降下法 - Mi manca qualche giovedi`? 前回に続いて、ロジスティック回帰で遊ぶ。まだ線形の特徴量しか試していなかったので、二次項や RBF (距離に基づく特徴)も追加し、イテレーションももっとたくさん行うようにし、また初期値や学習順によって結果が変わるから、テスト自体も複数回行えるようにした。そうなると、さすがに対話式インターフェースでコピペ実行というわけにもいかないので、スクリプトにて記述。 https://github.com/shuyo/iir/blob/master/lr/lr.r 分布図を吐かせるかどうか、テストを何回行うかはコマンドラインから指定できる。 R -q --vanilla --slave --args --chart -i 5 < lr.r --args の後に --chart を書くと分布図を出力し、-i

murawaki 2011/07/13

ML

リンク

ICML 2011メモ - y_tagの日記

TwitterでつぶやいたICML 2011の論文についてのメモ。まだあまり読めてないのだけれど、とりあえずここで一まとめ。ざっと目を通しただけなのでいろいろと間違ってるかもしれない。SVMの論文が多めなのは、SVMへの苦手意識を払拭しようとしてたから。 Large Scale Text Classification using Semi-supervised Multinomial Naive Bayes その名のとおり、大規模データのためのMultinomial Naive Bayesの新しい半教師あり学習の仕方を提案している。従来はEMアルゴリズムを用いる手法が一般的だったが、大規模だと扱いが難しい。提案手法のアイディアはまずラベル付きデータでConditional Log-Likelihoodを最大化し、データが足りない時はMarginal Log-Likelihoodを最大化す

murawaki 2011/07/08

ML

リンク

#21 Grammatical Error Correction with Alternating Structure Optimization - yasuhisa's blog

言語教育勉強会にてtoshikazu-tが紹介。文法的な誤り(ここでは冠詞と前置詞の誤りに限定)を直すのに、非学習者(つまり母語話者)の書いたテキストを使って誤り訂正をやるという方法がよく取られていたが、最近では学習者の書いたテキストも誤り訂正に寄与するってことが分かってきた。しかし、その両方を使う研究というのはあまりないので、この論文ではASOという補助問題を使って解く形式の手法を採用。全体の内容はACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記が詳しいので、補助問題の作り方とかASOの他の分野への応用についてメモしておきたいと思う。 ASOの補助問題の作り方はあまり直感的じゃないので好きじゃないのだが学習者と非学習者の文をfeatureにしたものから、1つfeatureを除く残りのfeatureを使って取り除いたfeatureを線形識別器を使って予

murawaki 2011/07/08

ML

リンク

DPMから学ぶノンパラベイズの思想 - nozyhの日記

はじめまして。そろそろ何かしら情報を発信していく必要性を感じたため、主に研究関連で、まとまったことがあれば記事にしていくことにしました。どれだけ更新出来るかは謎ですが。今回は、ノンパラベイズの基本をディリクレ過程を中心にまとめます。機械学習におけるノンパラベイズは、出て来てから10年以上経っていることもあり、大分一般的な話題になってる気がしますが、例えばブログできちんと分かりやすく説明したものってほとんどないように思います。僕がそもそも研究系のブログをあまりチェックしないというのもあるかもしれないですが、、、。個人的には去年の夏頃からの卒論で、Tehや持橋さんなどの論文を泣きながら読みつつ理解出来なかったので、その時の気持ちを思い出しながら書いてみたいと思います。例えばディリクレ過程（以下DP）を理解しようとして論文など読むと、DPはCRPと等価であるとか、SBPと等価であるとか書いてあ

murawaki 2011/06/06

ML

リンク

SVMの正則化項がマージン最大化のために必要な理由 - 射撃しつつ前転改

ラージマージンとマージン最大化について2回ほど書いてきた。あの後もSVMとマージンパーセプトロンについてうだうだと考えていたのだが、もうちょっとシンプルな説明を思いついた。 SVMの特徴はヒンジロスを採用している点と、正則化項があるところである。ヒンジロスはもう何度も出てきているが、max(0, 1-ywx)みたいな奴で、1-ywx<=0の時にだけ損失を0とするものである。正則化は、wの各要素をできるだけ0に近づけようとする力で、要するに、この力に打ち勝つだけの価値を持つ素性だけが生き残れる。マージンパーセプトロンとSVMの大きな違いは、この正則化項のあるなしである。前回は、ALMAの論文を持ち出してマージンパーセプトロンは近似的な最大マージンでしかない、と書いたが、そもそもSVMは最大マージンなのか。とりあえず、ヒンジロスだけで正則化項が存在しない場合（つまり、ほぼマージンパーセ

murawaki 2011/06/06

ML

リンク

Estimating a Dirichlet distribution

Estimating a Dirichlet distribution Thomas P. Minka 2000 (revised 2003, 2009, 2012) Abstract The Dirichlet distribution and its compound variant, the Dirichlet-multinomial, are two of the most basic models for proportional data, such as the mix of vocabulary words in a text document. Yet the maximum-likelihood estimate of these distributions is not available in closed-form. This paper describes si

murawaki 2011/05/25

ML

リンク

LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足

Latent Dirichlet Allocations(LDA) の実装について - 木曜不足にも出てくるこの式を導出してみる。この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか？導出に必要な道具は次の2つ。ガン

murawaki 2011/05/25

ML

リンク

LDA 追試(訓練データとテストデータを分けたら) - 木曜不足

LDA の評価結果＋Collapsed Variational Bayesian の初期化における工夫 - Mi manca qualche giovedi`? のコメント欄にて、daichi さんに「テストデータを用意して、そちらのperplexityを順次評価してみるとどうなるでしょうか。LWLM等と同様、その場合には smart init が一番高い確率を与える可能性があるかも知れません」とアドバイスをいただいた。多謝。 θ_d が大変そう、とつぶやいてたら同じくコメント欄にて yossy さんから「θ_d周りの実装が少し面倒なせいか、各文書の90%の単語で学習して残り10%で評価することがよく行われます」とさらにアドバイスをいただいた。またまた多謝。というわけで試してみた。 https://github.com/shuyo/iir/blob/master/lda/lda_test

murawaki 2011/05/13

ML

リンク

Mark Pagel - Home Page

murawaki 2011/05/09

BayesPhylogenies

ML

リンク

SVMのマージン最大化についてしつこく考えてみる - 射撃しつつ前転改

SVMの説明というと、よく出てくるのはマージンの最大化である。しかし、実装を行う場合には、どちらかというと目的関数をどうやって最小化しようかな、というところの方が重要（注：主形式を勾配法で最適化する場合の話です）で、この間にある微妙なギャップを超えるのは微妙ながらも大変なような気がしている。このギャップをどうやったら埋められるのかというところを考えてみたい。考えながら書いてきちんと推敲しておりませんのでご注意ください。 SVMってなに、という説明でよくあるパターンは、線形識別器（というか、SVM）の学習というのはパラメーターをいじって分離(超)平面をいい感じに引くことですよ、というところから始まり、いい感じってなんだろうか、マージンが最大化されるように引くといいっぽいよね、けど分離不可能な場合はマージンの値が負になることがあるよね、そこでソフトマージンというものを定義して、マージンが負にな

murawaki 2011/05/01

ML

リンク

CRFのヘシアン

坪井さんの論文がAAAIに通りました。おめでとうございます。AAAI記念ということで、宣伝その２。今回はCRFのヘシアンを具体的に計算してみます。入力文x、ラベル系列y、重みベクトルwに対して、CRFの対数尤度関数はです。fは特徴ベクトルで、普通f(x, y)と書きますが省略します。Zは分配関数です。正則化項を無視すれば、学習データに対するこの値の総和、が目的関数でした。この勾配はきれいな形をしていて、という形でかけます。NLP屋さん的にはここでおしまいですが、実はもう１回微分した形、つまりヘシアンもきれいな形で求まります。では頑張って微分しましょうというのが今回の主旨。まず、第１項のΣyfの項はwで微分すると消えます。考えないといけないのは第２項のE[f]の部分だけです。ベクトルの微分なのでちょっとめんどくさいです。もとの式に戻しましょう。ではwで微分しましょう。まずは積の微

murawaki 2011/04/29

ML

リンク

DMPにおけるハイパーパラメータのサンプリングの仕方 - yasuhisa's blog

ハイパーパラメータの決め方Collapsed Gibbs samplingなどではパラメータは積分消去されることからハイパーパラメータが通常のパラメータの役割を果たすことが少なくありません。そういうわけで通常だと割と適当に「えいやっ!!」と決めてしまうようなハイパーパラメータをベイジアンな人たちは頑張って決める。LDAのときとかは経験ベイズっぽく最適化したり、DPMのハイパーパラメータのようなものはハイパーパラメータに事前分布(つまり、ハイパーハイパーパラメータが導入されるということである...)をかけて、ハイパーパラメータもサンプリングしてしまうのが普通らしい。どこまで事前分布を置くのが適切なのかは色々あるんだろうけど、とりあえずやり方だけは把握しておくことにする。 "Hyperparameter estimation in Dirichlet process mixture model

murawaki 2011/04/29

ML

リンク

Multinomial DPMを実装してみた - yasuhisa's blog

ちょっと前に実装してたんだけど、メモを書くがてら公開してみる。やりたいこととしてはnested Chinse Restaurant Processまで行きたいんだけど、ノンパラベイズ初心者なので一番取りかかりやすいであろうDirichlet Process Mixture(DPM)を文書モデルでやってみたという感じです。HDPではなくDPMとしてコーパスをモデル化するので、いくつ文書があろうがそれらは全部一つの文書として取り扱います(というか、そういう形でしか取り扱えません。扱いたかったらHDPの世界へ行こう)。目的やってみようと思った理由はいくつかあって実際に自分で把握できるミニマムな*1ノンパラベイズのプログラムをgetする実際に書いてみることでノンパラベイズのプログラムではまりやすいところを知るコード書く段階までやってみないと分かったつもりになっていることが多いなどなどで

murawaki 2011/04/27

テストセットのperplexity

ML

リンク

[NLP] 第五回自然言語処理勉強会で発表してきました - tsubosakaの日記

id:nokunoさんの主催する自然言語処理勉強会で、Infer.NETを使ってLDAを実装してみたというタイトルで発表してきました。 Infer.NETはMicrosoftが公開しているグラフィカルモデル上でベイズ推定を行うためのフレームワークです。このようなものを使うことにより、具体的な推論アルゴリズムの導出を人が行うことなく、生成モデルを記述するだけで事後分布の推論が可能になり、簡単に確率モデルを問題に合わせて定義するということが行えるようになるといいなと思って、今回紹介しました。 Infer.NETを使ってLDAを実装してみた View more presentations from tsubosaka 参考文献 Infer.NETを使う上で参考になるかと思われる書籍をあげておきます。パターン認識と機械学習上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩

murawaki 2011/04/24

ML

リンク

LDA の評価結果＋Collapsed Variational Bayesian の初期化における工夫 - 木曜不足

えらく間隔があいてしまった。 LDA の結果を評価しつつ、前回やった LDA の Collapsed Variational Bayesian(CVB) 推論にて、初期化に一工夫入れて、少ないイテレーションで定性的によい結果を得られることを確認していたので、その解説も入れていこう。 Latent Dirichlet Allocations の Python 実装 - 木曜不足 Latent Dirichlet Allocations(LDA) の実装について - 木曜不足 LDA で実験その１:stop words の扱い方でどう変わる？ - 木曜不足 LDA で実験その２:初期値を逐次サンプリングにしてみた - 木曜不足 LDA の Collapsed Variational Bayesian 推論 - 木曜不足 CVB0 では γ_ijk の更新式が以下の形で得られる。この γ_

murawaki 2011/04/23

ML

リンク

論文輪講：Temporal Diversity in Recommender Systems - Preferred Networks Research & Development

PFIでは今年の4月から有志で論文の輪講を始めました。有名な学会の論文を毎回二人ぐらいが読んできて、資料を作って発表する、という形になっています。（ちょっと前まではTAPL輪講というものをやっていました。論文輪講が落ち着いたら、次はまた教書に戻るかもしれません。）私も先日発表をしてきたので、その資料を元にこちらの方でも論文紹介を行いたいと思います。私が担当したのはSIGIR 2010のFiltering and Recommendationのセッションで、以下の3本の論文を紹介しました。 Temporal Diversity in Recommender Systems Social Media Recommendation Based on People and Tags A Network-Based Model for High-Dimensional Information F

murawaki 2011/04/19

ML

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

MLに関するmurawakiのブックマーク (151)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス