タグ

ngramに関するyu4uのブックマーク (5)

  • DSIRNLPで発表させていただきました - Negative/Positive Thinking

    12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました 聴きにきていただいた方ありがとうございました スライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentations from phyllo 発表で以下のコメントをいただきました 「有効なダイエット法を見つけるツールの進捗は?」 現在鋭意製作中です。すいません。 「Suffix ArrayはメモリじゃなくてHDDで作成することができますよ」 試してみます!

    DSIRNLPで発表させていただきました - Negative/Positive Thinking
    yu4u
    yu4u 2011/12/11
  • 大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

    はじめに 大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。 大規模テキストにおけるN-gram統計の取り方 岩波講座ソフトウェア科学15「自然言語処理」 論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱う この文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成 その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみる この単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の

    大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
    yu4u
    yu4u 2011/10/14
  • Google Ngram Exports

    The Google Books Ngram Viewer is optimized for quick inquiries into the usage of small sets of phrases. If you're interested in performing a large scale analysis on the underlying data, you might prefer to download a portion of the corpora yourself. Or all of it, if you have the bandwidth and space. We're happy to oblige. These datasets were generated in February 2020 (version 3), July 2012 (Versi

  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

    yu4u
    yu4u 2011/09/14
  • 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

    というわけでようやく第5回を開催しました!!第5回 自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは 今日の題材はn-gramインデックスではなくn-gram確率(言語モデル)の話 応用:音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳 単語n-gramを題材とする P(晴れ | 天気 は) = 0.24 P(きっと | 天気 は) = 0.03 n-gramを小さくしたい クライアサイドで動作するアプリケーションのためとか サーバサイドでもオンメモリになるとうれしい 注目するのはメモリ使用量:ファイルサイズではない まずはデータを見てみます 大規模なn-gramを自分で用

  • 1