studyとBlogに関するideahoardのブックマーク (2)

  • 今日の井原. - CatchPhraser(きゃっちふれいざー): スニペットとしてキャッチコピーを表示するblog検索エンジン

    これから宣伝をしますよ。宣伝を。ええとですね。 研究室の卒研生であるところの松田さんが、卒業研究として開発した「CatchPhraser(きゃっちふれいざー)」というシステムを公開しました。CatchPhraserはblogを対象とした検索エンジンです。blog記事の内容を反映したキャッチコピーを自動生成し、検索結果に出力します。 キャッチコピーの表示によって、blogを検索するという行為自体が楽しみとなるようなシステムを目指しています。 通常、Web検索エンジンの検索結果には、そのWebページのスニペット(要約)が表示されます。スニペットの作成には、検索キーワードの周辺部分を取り出すKWIC(KeyWord In Content)という手法が使われることが多いです。GoogleYahooもKWICを使っていますね。 KWICは有効性の高い手法ですが、問題が無いわけではありません。取り出

  • Text Classification with CEEK.JP NEWS - Ceekz Logs (Move to y.ceek.jp)

    総合演習(情報特別演習)では、自然言語処理を勉強しています。自然言語処理に興味はあったけど、何から手をつけてよいかわからなかったので、今年は、イロハを知ることを目的に勉強中。 とりあえずの成果として Text Classification with CEEK.JP NEWS を作ったので公開します。成果というよりは、途中経過ですな。 CEEK.JP NEWS の 2005年8月 の記事データを基に、テキストの分類を行います。対応しているカテゴリーは、社会、政治、国際、経済、電脳、スポーツ、エンターテイメントの7つです。 ニュース記事を基にしているので、ニュースの方が分類が上手くいくと思います。また、特定の新聞社に絞らずに、ニュース検索 CEEK.JP NEWS のカテゴリーデータで学習しているので、少々精度が悪いような気もしますが。 分類が困難なニュース記事を分類するために開発しています。

    ideahoard
    ideahoard 2005/09/09
    ceeks.jp ニュースの分類
  • 1