情報理論でエントロピーなる概念を導入し、情報量を定式化したことを前回の記事で紹介しました。 s0sem0y.hatenablog.com 機械学習ではパラメトリックな推定を行う際に真の確率分布p(x)をq(x|θ)で表現するために、KLダイバージェンスKL(p(x)||q(x|θ))を最小化する問題に帰着させます。 KLダイバージェンスの性質が確率分布の隔たりを表現できると考えられるため、このような学習則が用いられ、実際にKLダイバージェンスの最小化は、尤度の最大化と数学的に一致しますから尤もらしい推定を行っていると言えます。 今回はこれを情報量なる観点から見なおして、元々の定義であるエントロピーの立場から、確率分布を近似する有効な手法であることを見ていきます。KLダイバージェンスは相対エントロピーと呼ばれる概念と同等のものであり、相対エントロピーの最小化が最尤推定に一致するわけですが、で
忘れがちな以下の4つの確率分布についてまとめておく。 ベルヌーイ分布 (Bernoulli distribution) 確率 $\lambda$で 1 を、確率 $1-\lambda$ で 0 をとる、離散確率分布である。 $P(x\mid \lambda) = \lambda^x(1-\lambda)^{(1-x)}$ for $ x \in \{0,1\} $ Takes a single parameter $\lambda \in [0,1] $ カテゴリカル分布 (Categorical distribution) ベルヌーイ分布を一般化した確率分布で、二値ではなく、$K$値の場合をとる離散確率分布である。 ※ベルヌーイ分布はカテゴリカル分布のカテゴリ数が2の場合ともいえる。 ※ どういうわけか、日本語Wikipediaにはカテゴリカル分布の記事は存在しないため、多項分布と混乱さ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く