タグ

ブックマーク / ameblo.jp/p630 (5)

  • 『混合多項分布のEMアルゴリズム』

    ぽんのブログ自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗 L 面 (面の数が L 個) のサイコロがあり、各目の出る確率が であるとします。ここに  は、l番目の目の出る確率です。 このサイコロを M 回振った時、各目の出る回数が ( i 番目の目が出る回数が x_i )である確率は多項分布 で求められます。 が所与の時、パラメータ の最尤推定値は、こちらのPDFのようにして と求められます。 次にこの L 面サイコロを K 個用意します。k 番目のサイコロが選ばれる確率を とすれば、各目の出る回数が である確率は、混合多項分布 に従います。 ここで で、これはk番目の L 面サイコロの各目の出る確率で、 はこの k 番目のサイコロの l 番目の目の出る確率です。 今、K 個のサ

    『混合多項分布のEMアルゴリズム』
  • 『混合多項分布のEMアルゴリズム・その2』

    ぽんのブログ自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗 前回の混合多項分布のEMアルゴリズムに則りテストするためのプログラムを作ってみました。 まずはユーティリティ群を。 #include <gsl gsl_math.h> #include <gsl gsl_rng.h> #include <gsl gsl_randist.h> const gsl_rng    *_rng_; /*** ユーティリティー ***/ /* ベクトルの和をとる */ double _sum (int n, double *vector) { int       i; double    sum = 0.; for (i = 0; i < n; i++) sum += vector[i]; retu

    『混合多項分布のEMアルゴリズム・その2』
  • 『EMアルゴリズム その4 簡単な(?)例・まとめ』

    ぽんのブログ自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗 前回、前々回で 男女からなる5人の身長データにEMアルゴリズムを適用してみました。 やってた事をもう一度まとめると 1. 分布のパラメータに初期値を与える。 2. 現在のモデルに基づいて所属確率 z を計算する。 その値を既知とし対数尤度の平均値(条件付き期待値)Qを計算する。 3. Qの微分から得られる尤度方程式から最尤パラメータを求めパラメータを更新する。 後は(2.で計算される)Qの値が変化しなくなるまで2.と3.を繰り返す。 2.のところの「条件付き期待値」の意味ですが、対数尤度の平均を求めるのに使っている z は、今現在得られているモデルに基づいた男女の確率です。 なのでそれを使って得られる平均値(期待値)は 「

    『EMアルゴリズム その4 簡単な(?)例・まとめ』
  • ぽんのブログ

    ぽんのブログ自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗 前回、凸関数 のメジャライザ を導き、これが を満たすことを説明しました。ここで は点 における凸関数 f の曲率の上限です。 ところでメジャライザのノルム中の定ベクトルを 式(1) と書けば となります。 更にL1正則化問題の場合 なのでL1正則化問題の目的関数 に対するメジャライザは となります。よってL1正則化問題の場合も上のメジャライザを最小化、その点でメジャライザを構築し直し最小化…を繰り返すことで最適解が得られます。ちなみにその際定数は何の寄与も持たないので を最小化することになります。 ところで、この解は解析的に求められ 式(2) となります。ここで は以下のsoft-threshold関数です。 以上からI

    yuiseki
    yuiseki 2012/08/08
    なにもの…
  • 『AIC (赤池情報量基準) その3 尤度関数と最尤解』

    ぽんのブログ自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗 平均m、分散s^2の正規分布の確率密度関数は 式(1) と書けます。 これは、この正規分布から値 x が生じる確率を表します。 また、この正規分布から独立に n 個のデータ (x1, x2, ... xn) を引く確率(同時確率)は 式(2) となります。 この時上の式は、分布のバラメータ m と s^2 が既知で、データ x はユーザが与える変数となっています。 でも逆に、データ x が既知で分布のパラメータが未知の場合を考えます。 例えば 「ランダムノイズと思われるデータが観測されたんだけど、ノイズを発生させる確率分布の平均・分散を求めたい」 なんて場合には、データ x は既に得られた既知の量となるのに対し、m や s

    『AIC (赤池情報量基準) その3 尤度関数と最尤解』
  • 1