本研究では、名詞と動詞のペア(n,v)が以下に示すような確率モデルによって 生成されるとし、その確率モデルの推定問題として単語クラスタリング問題を 定式化する。 ここで、C_nは名詞nの属するクラスタを表し、C_vは動詞vの属するクラスタを 表す。また、各々の単語は一つのクラスタにしか属さないとする。このような クラスタリングは一般的にハード・クラスタリングと呼ばれる。図2に上記モデルの例を示す。 名詞集合に対する一つの分割と動詞集合に対する一つの分割が定まれば、一つ の離散モデル(確率パラメータをもつ)が決まる。名詞集合、および動詞の集合 に対する可能な分割は指数オーダー数存在するので、上記確率モデルも数多く 存在する。与えられた共起データに対して、そのデータをもっとも良く説明で き、かつ単純なモデルを選択できれば、そのモデルにおける単語集合の分割を クラスタリングの結果とみなすことがで