Ron Bekkerman; Koby Crammer. One-Class Clustering in the Text Domain. あるトピックに関連する文書と関連しない文書が混ざっている文書集合が与えられたとき,トピックに関連する文書集合(核)と関連しない文書(ノイズ)に分類する教師無し手法を提案し,その手法の理論的な裏づけを行う.まず,単語wのトピックへの関与度を表す指標として,ρ(w) = p(w) / q(w)を用いる.ここで,p(w)は与えられた文書集合中におけるwの出現確率,q(w)は膨大な文書集合(例えばGoogle Web1Tコーパスなど)中におけるwの出現確率である.ある文書dのトピック度をp(w)とq(w)のKL-divergenceで計ると, KL_d(p||q) = \sum_{w \in G} p(d, w) log{p(w)/q(w)} = \sum_