研究テーマ 未踏テキスト用のキーワード抽出システム 概要 キーワード抽出 文書中のキーワードは非常に有用な情報であり、文書の検索・要約においても非常に重要な技術です。私たちの研究室では、このキーワードを自動で抽出するシステムを構築しました。下図の赤い部分が抽出したキーワードです。 このシステムは、辞書を全く用いずにシステムを構築しています。すなわち、漢字も、日本語も全く知らないシステムです。当然、句読点や助詞といった概念も全く考慮していません。それにもかかわらず、言葉をうまく捉えていることができていると思いませんでしょうか? システムに対する入力は以下の2つです。 「キーワードを抽出したいドキュメント」 「キーワードを抽出したいドキュメント」と同じような大量のドキュメント集合 これらのデータに対して頻度情報や統計量の計算を行い、得られた統計情報を元にしてキーワードを抽出します。 特徴 本
単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax
1.専門用語(キーワード)自動抽出システムとは? 当サイトでは、専門用語(キーワード)自動抽出システムの基本システムおよび応用システムを提供しています。 専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。 自作の文章からキーワードを抽出したい! メタデータ作成のためにウェッブサイト
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く