はじめに 自然言語処理だけでなく、音声認識、スペルチェック、情報検索など多くの分野で使われている「(確率的)言語モデル」について、少しまとめてみる。 言語モデル 「今日/は/晴れ」や「明日/は/雨」などの文はよく使われるのに対し、「晴れ/は/今日」や「は/雨/明日」などの文は全然使われない その文はどのぐらいの確率ででやすいのか?(生起確率) 確率的言語 その文(単語列)の確率を与えるモデルのことを「(確率的)言語モデル」という。 m種類の単語をn個ならべて作る単語列の確率を考えると、m^n個の単語列の確率がわかれば正確な言語モデルが作れる(?)。 例えば、3種の単語(「今日」「は」「晴れ」)を3つ並べて使う言語があったとして、それぞれの確率が、どこぞのコーパスから #単語列 生起確率 今日今日今日 0.0001 今日今日は 0.0001 今日今日晴れ 0.0001 ... 今日は晴れ 0