先日、ONNX Runtimeを使って、MNISTの推論を試した。 今回は、dlshogiのResnet 10ブロック、192フィルタのモデルを使って、GPUで実行した場合の速度と、CPUで実行した場合の速度を比較した。 測定条件 GPUでのONNXの推論にはTensorRT(FP16)を使用する。 CPUの測定にはONNX Runtimeを使用し、デフォルトのCPUプロバイダと、MKL-MLを有効にしたCPUプロバイダ、DNNLプロバイダのそれぞれで測定した。 OSはWindows 10 64bit、GPUはGeForce 2080Ti、CPUはCore i7-6700K(4コア、8スレッド、4GHz)を使用した。 推論の対象は、floodgateの棋譜からサンプリングした1万局面、バッチサイズは128とした。 それぞれの条件で、3回測定し、その平均時間を求める。 GPUで実行した場合の
dlshogiはCUDAに対応したNvidiaのGPUが必須になっているが、AMDのGPUやCPUのみでも動かせるようにしたいと思っている。 Microsoftがオープンソースで公開しているONNX Runtimeを使うと、様々なデバイスでONNXモデルの推論を行うことができる。 TensorRT対応で、ONNXのモデルを読み込めるようになったので、ONNX Runtimeに対応すれば同じモデルを使いまわせる。 ONNX Runtimeは、PythonやC#など複数の言語のインターフェースが提供されている。 dlshogiに組み込むにはC++のインターフェースが必要だが、C++も提供されている。 推論に使うデバイスは、CPUやCUDA、TensorRT、DirectX、MKL-DNNなど複数のデバイスを切り替えられるようになっている。 DirectXに対応すれば、AMDのGPUでも高速に推
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く