ベイズ推論 東京工業大学 渡辺澄夫 2016/9/15 1 電子情報通信学会ソサイエティ大会 AI-2 データ科学とコンピュータ科学の基礎理論と展開 2016年9月20日北海道大学 この講演の目的 2 2 統計的推論が命題論理の推論と異なる点を説明し、 ベイズ推論において解明されていることの概略を述べる。 もくじ 3 3 1.統計的推論は命題論理の推論と何が違うのか 2.統計的推論では何を知りたいのか 3.予測誤差と交差検証誤差 4.総和誤差と自由エネルギー 4 4 1.統計的推論は命題論理の推論と何が本質的に違うのか なぜ人間は「正しい統計的推論」を求めたのか 5 数学や物理学では一定の水準の厳密さにおいて 「正しい推論」というものが存在している。 → 正しいモデルで正しく推論すれば正しい結論が得られる。 → 間違った結論は間違ったモデルか推論から生まれる。 (例) 連続関数の列が一様収
このページをご覧頂き、ありがとうございます。 「ベイズと最尤のどちらが正しいのか」と、いつも何度でも尋ねられます。 「事前分布は何が正しいのか」と、いつも何度でも尋ねられます。 ここでは、できるだけ短く、その質問についての返答を述べます。 1.正しい統計的推論は存在しない 統計学が扱う問題では、ほとんどの場合、基礎となる確率がわからないので、 特別な場合を除いて、正しいモデル・正しい事前分布・正しい推論というものは存在しません。 条件が不足したり過剰だったりして答えられない問題のことを【不良設定問題】と いいます。 統計学は不良設定問題を扱う学問です。 この世にあるほとんどの問題は程度の違いこそあれ、みな不良設定です。 まずは「統計学は不良設定問題を扱う学問である」ということを理解しましょう。 基礎となる確率が定められていなければ【正しい統計的推論】は存在しません。 (注) 基礎となる確率
1.中心極限定理とは 統計学を勉強していると、中心極限定理という何やらお堅い名前の定理が出てきます。Wikipedia先生によると、 大数の法則によると、ある母集団から無作為抽出された標本平均はサンプルのサイズを大きくすると真の平均に近づく。これに対し中心極限定理は標本平均と真の平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差はサンプルのサイズを大きくしたとき近似的に正規分布に従う。 http://ja.wikipedia.org/wiki/中心極限定理 と書かれているのですが、よくわからないですね^^; 元の分布が、どんな形であれ、そこから取り出した標本の標本平均は正規分布に近いものになる、と言うことですね。標本分散も同じく正規分布に近いものになるそうです。(正確に言うとカイ二乗分布に従いNが多いと正規分布で近似できる) 言葉で説明しても、数式で証
In regression analysis, a dummy variable (also known as indicator variable or just dummy) is one that takes a binary value (0 or 1) to indicate the absence or presence of some categorical effect that may be expected to shift the outcome.[1] For example, if we were studying the relationship between biological sex and income, we could use a dummy variable to represent the sex of each individual in t
統計学の勉強を始めて最初のほうでつまづく分かりにくい概念が「自由度」である。1つの例が、母平均・母分散が不明な母集団から標本を抜き出した場合に、母分散の推定値となる「不偏分散」を求める場合である。 まず、標本分散と不偏分散の定義的および数式的な違いを理解しておく必要がある。標本分散は、文字通り「標本の分散」であるから、偏差平方和(平均と実測値との差の総和)を標本数(n)で割る。いってみれば、標本値における偏差(標本平均からのずれ)の平均値である。これに対して、不偏分散は、母分散の不偏推定量(バイアスがない推定値)であるという意味であり、偏差平方和を(n-1)で割った値になる。 ここで素人的には「なぜ不偏分散を求めるときはnではなく(n-1)で割るのだろうか」という疑問が出てきてしまうのである。さらにいうと「(n-1)の1に意味があるのだろうか。2とか3ではダメなのか」というような疑問が出て
Zipf's Law on War and Peace.[1] The lower plot shows the remainder when the Zipf law is divided away. It shows that there remains significant pattern not fitted by Zipf law. A plot of the frequency of each word as a function of its frequency rank for two English language texts: Culpeper's Complete Herbal (1652) and H. G. Wells's The War of the Worlds (1898) in a log-log scale. The dotted line is t
pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!
結論から言うと,結構面倒なのでサンプリングで近似すれば良い.死ぬほど精度が必要とかで無い限り, 後述する Variational Approximation を使えば良さそう. 目的 GMMは正規分布の重み付き和で表現される確率分布.二つのGMMの類似度を測る必要が生じたので調べていたら案外と面倒だったのでメモしておく. KL Divergence 確率分布の類似度と言えばKLダイバージェンス.最近では正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurmや多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zweiでも触れられている. 誰か実装できる形にまで書き下しているかと思ったら閉じた形では書けないとのこと.そしてこれをどうにか近似するというのは最近でも取り組まれている研究テーマであるらしい. Approximating the
統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル
赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単にAICとも呼ばれ、この呼び方のほうが一般的である。統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1973年に発表した[1]。 AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしま
In predictive analytics, data science, machine learning and related fields, concept drift or drift is an evolution of data that invalidates the data model. It happens when the statistical properties of the target variable, which the model is trying to predict, change over time in unforeseen ways. This causes problems because the predictions become less accurate as time passes. Drift detection and
Variational Bayesian methods are a family of techniques for approximating intractable integrals arising in Bayesian inference and machine learning. They are typically used in complex statistical models consisting of observed variables (usually termed "data") as well as unknown parameters and latent variables, with various sorts of relationships among the three types of random variables, as might b
バイアス-バリアンス (bias-variance)† モデル \(Y=f(X)+\varepsilon\) から訓練サンプル集合 \(T\) が生成されたとする. ただし,\(\varepsilon\) は正規分布 \(N(0,\sigma^2)\) に従う真のエラー項. この訓練サンプル集合から \(\hat{f}(x)\) を推定したとする. このとき,点 \(x\) の汎化誤差を最小2乗で測ると \[\mathrm{E}[(Y-\hat{f}(x))^2|X=x]=\sigma^2+\Bigl(\mathrm{E}_T[\hat{f}(x)]-f(x)\Bigr)^2+{\mathrm{E}_T}\bigl[(\hat{f}(x)-\mathrm{E}_T[\hat{f}(x)])^2\bigr]\] \[=\sigma^2+{\mathrm{Bias}}^2[\hat{f}(x)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く