対象とする読者 PyTorch 1.6を利用できる環境にあってVolta以降のGPUの計算を簡単に高速化・省メモリ化したい方 はじめに Volta以降のGPUではfloat16/float32混合精度演算により計算の高速化・メモリの節約を行うTensorCoreが搭載されています。 しかし、特に明示的にプログラムを書かない限り?はfloat32による計算が行われ、TensorCoreを有効活用することはできません。かといって単に全てfloat16化して計算を行うだけだと、表現力が少なかったり、勾配でアンダーフローしてしまったりとモデルの性能が維持できません。 そこで、Automatic Mixed Precision (amp)機能によってfloat32の保持や勾配の値のスケーリング等を自動的に行うことでTensorCoreを有効活用し、GPU計算の高速化・省メモリ化が実現されます。 もう