はじめまして、AI技術開発部の亀澤です。 AI技術開発部では様々な機械学習モデルの開発に加えて、車載デバイスやクラウド上でDeep neural network (DNN)を使ったリアルタイムな予測を行うための、DNNの高速化や軽量化にも取り組んでいます。 この記事では、エッジデバイスでDNNを動かす上で、高速化、軽量化に効果があるDNNの量子化について次の3点について説明していきます。 量子化について量子化の詳細と分類DNNライブラリの量子化への対応状況TensorFlowPyTorchTVM 量子化についてニューラルネットワークにおける量子化とは、通常、浮動小数点数として扱われる値を、整数と少数のパラメータで表現する手法一般のことを指します。もとの浮動小数点数 xxx と量子化された値 qqq の間の関係は二つの量子化パラメーター(オフセット(バイアス、ゼロ点)offset, スケール