Hierarchical Dirichlet processes(HDP)の元論文。Group化されたようなデータに対してDPをそのまま使うとグループ間での特徴を共有できないので、どうにかしたい(ノンパラのいいところはそのままにしつつ)。テキストで考えると分かりやすいので、今後はグループのことをdocument、それより大きい単位のをコーパスで考えることにする。 HDPでの生成過程は以下のようになっている。 ここで重要なのは「H、、がそれぞれどういう分布なのか?」というのを理解すること。 Hは連続な分布(大抵の場合は事前知識がないので平坦なものを考えることが多い。連続データに対して考えるならNormal-Inverse-Wishart分布のようなものだし、離散ならDirichlet分布がHとなることが多いだろう) はと書き表わすことができるという事実が知られており、これからはHと同じ定義域