タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

n-gramに関するsleepy_yoshiのブックマーク (2)

  • [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記

    この文章について 最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。 文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。 問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。 一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。 最尤推定 一番簡単なモデルとしては最尤推定を使うもの

    [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
  • Moro-siki: ngram

     Nグラムによるテキスト研究 師 茂樹 Nグラムとは Nグラムとは、確率・統計的自然言語処理の分野で広く用いられている言語モデルで、きわめて単純なモデルであり多くの欠点が指摘されているにもかかわらず、非常に強力な分析方法である。単語や文字(アイテムと総称)の生起が、直前のアイテムのみに依存していると考え、その確率を求めるものである。 近年、人文学におけるテキスト研究において、Nグラムが注目されてきている。これまで、テキスト研究における統計的な分析(計量文献学)においては、形態素分析が不可欠の作業とされており、実際、品詞をマークアップしたテキストデータベースによる研究によっていくつかの注目すべき成果が上がっている。しかし、形態素分析に基づくデータ処理には、次のような問題点が指摘されている(近藤みゆき [2001]参照)。 1語の単位を認定する基準が一通りではない。 複合語や強い共起性のある

  • 1