「EMアルゴリズムが幾何学的に説明できる」と聞いた驚きが情報幾何に興味を持ったきっかけということで、そこのところを綺麗に整理してみます。議論の元ネタは、「情報幾何学の新展開」の第12章です。 幾何を用いない(普通の)EMアルゴリズムの説明は、こちらを参照ください。 確率分布が構成する空間 観測可能な変数 と観測できない変数(Latent variable) を持つ確率分布について、考えうるすべての分布 を集めた空間 を用意します。 この中で特に、パラメータ で特徴づけられたモデルの分布 を集めると、これは、空間 の部分空間 を構成します。これを「モデル空間」と呼びます。 一方、観測データ が与えられた場合、この観測データが得られる確率が 1 になる(この観測データにオーバーフィッティングした)確率分布が構成できます。 ここに、 は、 を満たす任意の関数です。 このような をすべて集めたもの