確率的言語モデルとその応用 森 信介 京都大学 学術情報メディアセンター 2011 年 6 月 16 日 吾輩は / わがはいは 猫である / ねこである Noisy Channel Input Output わがはいは ねこである 吾輩は 猫である 確率的言語モデル 日本語の文の出現確率 P(我輩は猫である) > P(我が背は猫である) 出現しやすい文に高い値を 他のモデルと連携するために確率にする 単語の出現確率の積 P(我輩は猫である) = P(我輩) ×P(は | 我輩) ×P(猫 | 我輩 は ) ×P(である | 我輩 は 猫) 確率を単語分割済みコーパスから推定 f(我輩 は 猫 である) P(である | 我輩 は 猫) = f(我輩 は 猫) 生成的な確率モデルによるアプローチ 雑音のある通信路モデル (Noisy Channel Model) ise