[B! n-gram] sleepy_yoshiのブックマーク

sleepy_yoshi id:sleepy_yoshi

n-gramに関するsleepy_yoshiのブックマーク (2)

[NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
この文章について最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。本文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。最尤推定一番簡単なモデルとしては最尤推定を使うもの
sleepy_yoshi 2010/04/16
NLP

n-gram
リンク
Moro-siki: ngram
Nグラムによるテキスト研究師　茂樹 Nグラムとは Nグラムとは、確率・統計的自然言語処理の分野で広く用いられている言語モデルで、きわめて単純なモデルであり多くの欠点が指摘されているにもかかわらず、非常に強力な分析方法である。単語や文字（アイテムと総称）の生起が、直前のアイテムのみに依存していると考え、その確率を求めるものである。近年、人文学におけるテキスト研究において、Nグラムが注目されてきている。これまで、テキスト研究における統計的な分析（計量文献学）においては、形態素分析が不可欠の作業とされており、実際、品詞をマークアップしたテキストデータベースによる研究によっていくつかの注目すべき成果が上がっている。しかし、形態素分析に基づくデータ処理には、次のような問題点が指摘されている（近藤みゆき [2001]参照）。 1語の単位を認定する基準が一通りではない。複合語や強い共起性のある
sleepy_yoshi 2008/12/08
n-gram

まとめ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx