ディープラーニングのモデルを推論する際、通常GPUが必要である。しかし、GPUがない場合でも、モデルのパラメータを浮動小数点から整数へと変換する手法を使うことで、CPUだけでも推論処理を高速に行うことが可能である。この手法を量子化と呼ぶ。 PyTorchの量子化 PyTorchには、量子化の方法がいくつか用意されている。 実装は「Eager Mode Quantization」と「FX Graph Mode Quantization」に分かれており、「FX Graph Mode Quantization」の方が新しい実装で、「Eager Mode Quantization」ではモデルのレイヤー融合を手動で行う必要があったところが自動化されている。 また、一般的に量子化の手法として、 ダイナミック量子化 トレーニング後の量子化 量子化認識トレーニング がある。 ダイナミック量子化は、キャリブ