Deep Learningの表現学習を情報量という観点で見てみる。 所属組織のしがらみがあるので公開情報に限定し自分の考察などは基本記述しない まとめ 相互情報量使うといろいろおもしろ表現学習できるし汎化誤差にも関係ありそうだし、相互情報量大事だよ! おまけで相互情報量を計算するサンプルコード載せたよ! 相互情報量とは? 2つの確率変数XとYの情報がどれだけかぶっていないかを表す指標で以下で定義される I\left(X;Y\right)\equiv D_{{\rm KL}}\left(p\left(x,y\right)||p\left(x\right)p\left(y\right)\right)=\iint p\left(x,y\right)\log\frac{p\left(x,y\right)}{p\left(x\right)p\left(y\right)}dxdy