というわけでようやく第5回を開催しました!!第5回 自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは 今日の題材はn-gramインデックスではなくn-gram確率(言語モデル)の話 応用:音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳 単語n-gramを題材とする P(晴れ | 天気 は) = 0.24 P(きっと | 天気 は) = 0.03 n-gramを小さくしたい クライアサイドで動作するアプリケーションのためとか サーバサイドでもオンメモリになるとうれしい 注目するのはメモリ使用量:ファイルサイズではない まずはデータを見てみます 大規模なn-gramを自分で用