未踏ソフトウェア創造事業の blog マイニングを見学 [ ウェブログに関すること ] 昨年の未踏ソフトウェア創造事業に採択された "blogページの自動収集と監視に基づくテキストマイニング" の研究成果を見学するため、東工大の奥村研究室に行って来ました。開発者は南野さん、藤木さんをはじめとする奥村研の方々です。技術に明るい面々と共に突撃。 詳しい研究内容は未踏ソフトウェアのサイトを見ていただくとして、ざっくり分けると ・そのページが blog かどうかを判定するシステム ・blog サイトから文書を集めるクローラー ・集めた文書をテキストマイニングして特徴的な話題を抽出するシステム の 3 つ。これらが連携して大量の blog サイトから最近話題の事件を自動抽出したり、過去を振り返って当時何が話題になっていたかを探ったりするシステムができあがっていました。 この研究の大きな特徴は 2 つ