先日、ONNX Runtimeを使って、MNISTの推論を試した。 今回は、dlshogiのResnet 10ブロック、192フィルタのモデルを使って、GPUで実行した場合の速度と、CPUで実行した場合の速度を比較した。 測定条件 GPUでのONNXの推論にはTensorRT(FP16)を使用する。 CPUの測定にはONNX Runtimeを使用し、デフォルトのCPUプロバイダと、MKL-MLを有効にしたCPUプロバイダ、DNNLプロバイダのそれぞれで測定した。 OSはWindows 10 64bit、GPUはGeForce 2080Ti、CPUはCore i7-6700K(4コア、8スレッド、4GHz)を使用した。 推論の対象は、floodgateの棋譜からサンプリングした1万局面、バッチサイズは128とした。 それぞれの条件で、3回測定し、その平均時間を求める。 GPUで実行した場合の