タグ

ブックマーク / plata.ar.media.kyoto-u.ac.jp (2)

  • 確率的言語モデルとその応用

    確率的言語モデルとその応用 森 信介 京都大学 学術情報メディアセンター 2011 年 6 月 16 日 吾輩は / わがはいは である / ねこである Noisy Channel Input Output わがはいは ねこである 吾輩は である 確率的言語モデル 日語の文の出現確率 P(我輩はである) > P(我が背はである) 出現しやすい文に高い値を 他のモデルと連携するために確率にする 単語の出現確率の積 P(我輩はである) = P(我輩) ×P(は | 我輩) ×P( | 我輩 は ) ×P(である | 我輩 は ) 確率を単語分割済みコーパスから推定 f(我輩 は である) P(である | 我輩 は ) = f(我輩 は ) 生成的な確率モデルによるアプローチ 雑音のある通信路モデル (Noisy Channel Model) ise

    jewel12
    jewel12 2011/06/24
  • Zzz Eee Lll Ccc Hhh

    仮名漢字変換 統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。 当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。 確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。 実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。 モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードで きます。 詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。 リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用 単語と読

  • 1