[B! n-gram] manabouのブックマーク

manabou id:manabou

n-gramに関するmanabouのブックマーク (4)

【 Haskell 自作関数】文字列関数（編）〜文字列が、パターン文字列を部分文字列として含むか否かを、 boolean値（True | False）で返す関数 - Qiita
manabou 2017/01/28
haskell

nlp

n-gram

pattern

patternmatching

string
リンク
大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱うこの文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみるこの単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の
manabou 2011/10/13
n-gram

nlp

algorithm
リンク
可変次数 N-gram デコードのアルゴリズム - アスペ日記
前に書いた N-gram 漢字-かな変換 - アスペ日記のアルゴリズムについて。かなり縦に長いエントリになると思う。途中までは一般的な日本語自然言語処理にかかわること。例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。こういう時に使われるのが「ラティス構造」。こういうやつ↓ （この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの）それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。これをプログラム上でどう実現するか。まず、共通接頭辞検索というものを使う。これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。例えば、「くるまで」をキーとして使うと、「く
manabou 2011/08/08
n-gram

algorithm
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
manabou 2007/11/02
data

research

search

japanese

n-gram
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx