研究テーマ 未踏テキスト用のキーワード抽出システム 概要 キーワード抽出 文書中のキーワードは非常に有用な情報であり、文書の検索・要約においても非常に重要な技術です。私たちの研究室では、このキーワードを自動で抽出するシステムを構築しました。下図の赤い部分が抽出したキーワードです。 このシステムは、辞書を全く用いずにシステムを構築しています。すなわち、漢字も、日本語も全く知らないシステムです。当然、句読点や助詞といった概念も全く考慮していません。それにもかかわらず、言葉をうまく捉えていることができていると思いませんでしょうか? システムに対する入力は以下の2つです。 「キーワードを抽出したいドキュメント」 「キーワードを抽出したいドキュメント」と同じような大量のドキュメント集合 これらのデータに対して頻度情報や統計量の計算を行い、得られた統計情報を元にしてキーワードを抽出します。 特徴 本