このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。 アルバイトの大友です。 TensorコアのWMMA APIを使っている人があまりいなかったため、6月中はインターンとして、7月からはアルバイトとしてその使い方や性能を調べていました。 この記事はその成果をまとめたものです。 Tensorコアを使うことでFP16のSIMD計算(f16x2)に比べ密行列積を5倍程度高速化できました。 Tensorコアとは NVIDIA Voltaアーキテクチャから採用されたTensorコアは2つの$4 \times 4$のFP16行列の積を1サイクルで計算し、その累積和をFP16/FP32で取ることができる計算ユニットです。 cuBLAS, cuDNNなどのライブラリではCUDA 9からTensorコアを利用できます。 WMMA APIを用いた行列積計算
![Tensorコアを使ってみた - Fixstars Tech Blog /proc/cpuinfo](https://cdn-ak-scissors.b.st-hatena.com/image/square/3088e1339baba572c46696a255c6bed13fd68038/height=288;version=1;width=512/https%3A%2F%2Fproc-cpuinfo.fixstars.com%2Fwp-content%2Fuploads%2F2018%2F10%2Fthread-fragment.png)