jewel12のブックマーク - はてなブックマーク

確率的言語モデルとその応用
確率的言語モデルとその応用森信介京都大学学術情報メディアセンター 2011 年 6 月 16 日吾輩は / わがはいは猫である / ねこである Noisy Channel Input Output わがはいはねこである吾輩は猫である確率的言語モデル日本語の文の出現確率 P(我輩は猫である) > P(我が背は猫である) 出現しやすい文に高い値を他のモデルと連携するために確率にする単語の出現確率の積 P(我輩は猫である) = P(我輩) ×P(は | 我輩) ×P(猫 | 我輩は ) ×P(である | 我輩は猫) 確率を単語分割済みコーパスから推定 f(我輩は猫である) P(である | 我輩は猫) = f(我輩は猫) 生成的な確率モデルによるアプローチ雑音のある通信路モデル (Noisy Channel Model) ise
jewel12 2011/06/24
nlp

lm
リンク
Zzz Eee Lll Ccc Hhh
仮名漢字変換統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードできます。詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用単語と読
jewel12 2010/06/09
NLP

仮名漢字変換
リンク
1

はてなブックマーク

タグ

ブックマーク / plata.ar.media.kyoto-u.ac.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / plata.ar.media.kyoto-u.ac.jp (2)

確率的言語モデルとその応用

Zzz Eee Lll Ccc Hhh

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス