データを X1,X2,...,Xn とします。 パラメータ w によって定まる x の確率密度関数を p(x|w) と書き、 確率モデル、統計モデル、学習モデルと呼びます。 を尤度関数と言います。また、φ(w) を w の集合の上の確率 密度関数とします。与えられたデータがある確率分布から 独立に発生した場合を想定して、モデルである p(x|w) と φ(w) の 良さを考えてみることにします。 1. ベイズ情報量規準 データが与えられたとき、 を小さくする「p(x|w) とφ(w)」 の組を データの記述に相応しいと考える規準をベイズ情報量規準と 呼ぶことにします。 F のことを、対数周辺尤度、記述長、自由エネルギー といいます。 2. 最尤情報量規準 尤度 L(w) を 最大にするパラメータを w* と書くことにします。 これを最尤推定量といいます。p(x|w*) を用いて予測するとき