一言でいうと SGDによる最適化には ・Empirical Error Minimization ・Representation Compression という異なる二つのフェイズがあることを明らかにした。 論文リンク https://arxiv.org/abs/1703.00810 著者/所属機関 Ravid Shwartz-Ziv Naftali Tishby 概要 入力をX, 出力をYとする。 DNNを前後半で分け、前半をEncoder: P(T | X), 後半をDecoder: P(Y | T)と解釈する。 SGDによる最適化の経過を相互情報量I(X; T), I(T; Y)について観察すると、 I(Y; T)が増大する(Empirical Error Minimization) I(T; X)が減少する(Representation Compression) という二つのフェイ