\epsilon = 10^{-5}\\ \mu_{B} \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_i\\ \sigma^2_{B} \leftarrow \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_{B})^2\\ \hat{x_i} \leftarrow \frac{x_i - \mu_{B}}{\sqrt{\sigma^2_{B} + \epsilon}}\\ y_i \leftarrow \gamma \hat{x_i} + \beta 上式について,$\gamma$と$\beta$がパラメータでそれぞれ正規化された値をScaling及びShiftするためのものだそうです.それぞれ,誤差逆伝播法で学習する必要があるのですが,ここでは詳しい式の導出を割愛します. Fully-Connected Layerの場合 通