今日の自然言語処理特論の講義がとても面白かったのでメモ。 今日の自然言語処理特論では、最初に言語モデルとしてn-gramのモデルの紹介があって、それの最尤推定の話。次に言語モデルのよさをはかる尺度としてエントロピー*1を元にしたパープレキシティが紹介された。 パープレキシティの導出のところはこんな感じ。まず情報量やエントロピーの導出のところの話があって、(頻度論的に)真のモデルがあると仮定したときにそのモデルと自分のモデルの仮想的な距離を相対エントロピー(=KLダイバージェンス)ではかろうとする。しかし、真のモデルの分布なんぞは分からないので困るのだが、Shannon-McMillan-Breimanの定理という素晴らしい定理(言語と計算 (4) 確率的言語モデルに説明が載っているらしい)があるらしく、これを利用すると真のモデルとの相互エントロピーを計算できる!!これはすごい。まあ、これに