MIOpen にはわずかに届きませんでしたが、MIOpen は cuDNN と同様に Winograd などのカーネルをアセンブリで実装していることを考えると、AutoTVM の結果はかなり良いと考えられます。また、R9 Nano と GTX 1070 ti の理論性能はほぼ同等ですが、CUDA 版の結果と比較しても特にVGG については大きな遜色はなく、AMDGPU でも十分高速に推論ができることがわかると思います。Resnet については CUDA 版と比べて少し開きがあるので要調査です。AMD 版が少し遅いことの理由の一つとして、コンパイラの成熟性が挙げられます。NVCC がすでに 10年以上使われているのに対して、LLVM の AMDGPU バックエンドはまだ比較的新しいです。今後のパフォーマンス改善には期待できると思います。 終わりに AutoTVM の成果物として、今のところ