総合演習(情報特別演習)では、自然言語処理を勉強しています。自然言語処理に興味はあったけど、何から手をつけてよいかわからなかったので、今年は、イロハを知ることを目的に勉強中。 とりあえずの成果として Text Classification with CEEK.JP NEWS を作ったので公開します。成果というよりは、途中経過ですな。 CEEK.JP NEWS の 2005年8月 の記事データを基に、テキストの分類を行います。対応しているカテゴリーは、社会、政治、国際、経済、電脳、スポーツ、エンターテイメントの7つです。 ニュース記事を基にしているので、ニュースの方が分類が上手くいくと思います。また、特定の新聞社に絞らずに、ニュース検索 CEEK.JP NEWS のカテゴリーデータで学習しているので、少々精度が悪いような気もしますが。 分類が困難なニュース記事を分類するために開発しています。