この記事についてこの記事では、大きなミニバッチで学習さえることの効力と、Tensorflow2.0を用いてメモリに乗り切らない大きなミニバッチを学習させる方法を紹介します。この記事に書いてあることは以下の通りです。 Tensorflow2.0を用いた標準的なモデル学習の方法大きなミニバッチで学習させることが効果的な場面各ミニバッチのGradientを積算していき、仮想的な大きなバッチのGradientでモデルを更新する方法今回使った実験のコードはGithubにアップロードしてます。 Tensorflow2.0の標準的なモデル学習の方法tensorflow2.0では、kerasのfitを用いた学習のほかに、gradient tapeを用いた学習方法がチュートリアルで提案されています。以下のコードはチュートリアル[1]からの引用です。 大きなミニバッチで学習させることが効果的な場面当然ですが、
![大きなミニバッチの効力と、Tensorflowを使って大きなミニバッチを学習させる方法(Gradient Accumulation)](https://cdn-ak-scissors.b.st-hatena.com/image/square/b4b80a6a5f6e5dc28dc5a60414a38b8ca5d6134a/height=288;version=1;width=512/https%3A%2F%2Fmiro.medium.com%2Fv2%2Fresize%3Afit%3A1200%2F1%2ATJm1z-NbN_ADrNNkGcasig.png)