"Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ本)を読んでいるが、5.4 Mutual Information で詰まった。 書いてあることがいろいろ腑に落ちない。 まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「本当にそうなの? なんかおかしくない?」という部分があるので、そこら辺含めてちょっとまとめてみた。 【追記】フォロー記事書きました → http://d.hatena.ne.jp/n_shuyo/20101006/pmi 【/追記】 なお、章題は "Mutual Information" だが、実際に扱っているのは pointwise mutual information(PMI) の事ばかり。 まず self-information(自己情報量) を定義しておこう。 確率