[B! ngram] yu4uのブックマーク

DSIRNLPで発表させていただきました - Negative/Positive Thinking

12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました聴きにきていただいた方ありがとうございましたスライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentations from phyllo 発表で以下のコメントをいただきました「有効なダイエット法を見つけるツールの進捗は？」現在鋭意製作中です。すいません。「Suffix ArrayはメモリじゃなくてHDDで作成することができますよ」試してみます！

yu4u 2011/12/11

ngram

リンク

大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱うこの文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみるこの単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の

yu4u 2011/10/14

ngram
nlp

リンク

Google Ngram Exports

The Google Books Ngram Viewer is optimized for quick inquiries into the usage of small sets of phrases. If you're interested in performing a large scale analysis on the underlying data, you might prefer to download a portion of the corpora yourself. Or all of it, if you have the bandwidth and space. We're happy to oblige. These datasets were generated in February 2020 (version 3), July 2012 (Versi

yu4u 2011/10/11

corpus
ngram

リンク

本当に必要なN-gramは2割しかない - nokunoの日記

Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い

yu4u 2011/09/14

ngram

リンク

第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

というわけでようやく第5回を開催しました！！第5回自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは今日の題材はn-gramインデックスではなくn-gram確率（言語モデル）の話応用：音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳単語n-gramを題材とする P(晴れ | 天気は) = 0.24 P(きっと | 天気は) = 0.03 n-gramを小さくしたいクライアサイドで動作するアプリケーションのためとかサーバサイドでもオンメモリになるとうれしい注目するのはメモリ使用量：ファイルサイズではないまずはデータを見てみます大規模なn-gramを自分で用

yu4u 2011/04/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

ngramに関するyu4uのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス