Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift arXiv:https://arxiv.org/abs/1502.03167 Internal Covariance Shiftの問題 ニューラルネットワークでは,入力となるデータの分布が白色化されていると学習が早く進む. 特徴を無相関化し,平均0,分散1とすることは画像処理では特によく行う. しかし,階層的なニューラルネットでは,入力層での入力データが白色化されていたとしても, 重みパラメータは更新されていくため,後層では常に分布が変化する入力をもとに学習することになる. せっかくパラメータを学習しても、新たな入力分布に合わせて再適応させなければならず、無駄となってしまう。 この現象を著者らは, inte
![BatchNormalizationの初出論文メモ - 緑茶思考ブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/f780e7253d9e2e4217ebed7e64aef9634e8f77de/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fy%2Fyusuke_ujitoko%2F20170616%2F20170616154548.png)