文書クラスタリングの基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report No. 20070913004 2007年 4月 24日 Abstract 文書クラスタリングでは,文書の定義,クラスタリングに用いる類似度の定義,クラスタリング手法などに特徴的な点がある.そこで本報告ではそれらをまとめ,文書クラスタリングに対する理解を深める. 1 はじめに 知的システムデザイン研究室では,ISDLレポートと呼ばれる研究報告を現在までに1300本以上Web上に公開している.多くのレポートが存在するが,レポートの分類は行われていないため,クラスタリングにより自動的にレポートのグループ化を行うことを目指している.しかしISDLレポートのような文書に対するクラスタリングではいくつか特徴的な事項があり,それらを考慮する必要がある.そこで本報告では文書クラスタリングに関する特徴点をまと