辻井研演習3 単語クラスタリングの諸考察 岡野原 大輔 04/05/24 1 背景 集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類する クラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、 単語を分類したり、文書を分類するなど、多くのケースで使用されている。 単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、 得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決さ れ、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラス タリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数