タグ

NLPとstatisticsに関するmogwaingのブックマーク (2)

  • 梅村研究室 - 未踏テキスト用のキーワード抽出システム

    研究テーマ 未踏テキスト用のキーワード抽出システム 概要 キーワード抽出 文書中のキーワードは非常に有用な情報であり、文書の検索・要約においても非常に重要な技術です。私たちの研究室では、このキーワードを自動で抽出するシステムを構築しました。下図の赤い部分が抽出したキーワードです。 このシステムは、辞書を全く用いずにシステムを構築しています。すなわち、漢字も、日語も全く知らないシステムです。当然、句読点や助詞といった概念も全く考慮していません。それにもかかわらず、言葉をうまく捉えていることができていると思いませんでしょうか? システムに対する入力は以下の2つです。 「キーワードを抽出したいドキュメント」 「キーワードを抽出したいドキュメント」と同じような大量のドキュメント集合 これらのデータに対して頻度情報や統計量の計算を行い、得られた統計情報を元にしてキーワードを抽出します。 特徴

  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

  • 1