タグ

N-gramとまとめに関するstick23rdのブックマーク (2)

  • 言論マップ勉強会 - NAIST Computational Linguistics

    概要 Web上に存在するさまざまなテキスト情報について、それらの間に暗に示されている同意、対立、弱い対立、根拠などの意味的関係を解析する技術を研究開発します 個々のテキスト情報を、他の関連テキスト情報との論理的・時間的な関係の中に位置付けます 情報利用者がWeb上のテキスト情報の信憑性を判断する手がかりとする http://www.nec.co.jp/press/ja/1101/3101.html 公開システム ↑ 記 時間: 金曜日 13:00-15:00 場所: 松研図書室(Polycomによる東北大との勉強会) 主な参加者: 松,乾(東北大),松吉,佐尾,増田,渡邉(東北大), Eric(東北大),水野(東北大), 大木 詳細は言論マッププロジェクトのローカルページ(アクセス制限あり)をご覧ください ↑ 外部発表一覧 言論マップ生成課題:言説間の類似・対立の構造を捉えるために 村

  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • 1