タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

n-gramに関するtckzのブックマーク (2)

  • Palmkit - a statistical language modeling toolkit

    Palmkit Homepage Palmkit (Publicly Available Language Modeling Toolkit)は、n-gram言語モデルが簡単に作成できるツールキットです。 What's New 最新版は 1.0.32 です. メーリングリストを作りました.ユーザの方はお気軽に登録を. 参加方法はこちらを ごらんください. 特徴 CMU-Cambridge Statistical Language Modeling Toolkit とコマンドレベルで互換。 クラスn-gramのサポート。(単語クラスタリング機能は含まれていません) 組み合わせ言語モデルのサポート。 動作環境 Linux, FreeBSD 等UNIX互換環境 ダウンロード 最新版:version 1.0.32 (tar.gz形式) 更新履歴はこちら . ドキュメント HTML版はここ からどう

    tckz
    tckz 2006/12/06
  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • 1