このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。 先日、GeForce GTX 1080 Tiを2枚積んだマシンを計算サーバとして追加導入しました。 新しいマシンで意気揚々と学習を回していたのですが、時間がたつにつれて学習速度が低下していったり、マルチGPU化しても性能が伸びなかったりかえって遅くなったりしてしまっていました。 このような症状を聞くと熱問題だろうと気づく方も多いかと思いますが、せっかくなので冷却が不十分なGPUがどういった挙動を示すか少し実験してみました。 実験内容 アプリケーション・計測方法 GPUに負荷をかけるためのアプリケーションとして、ひたすらcuBLASのSGEMM (n=m=k=8192) を実行し続けるプログラムを用意しました。 また、各種メトリクスの取得にはNVMLを使用し、およそ10-20ms程度ごと
![GPUの温度と性能低下 - Fixstars Tech Blog /proc/cpuinfo](https://cdn-ak-scissors.b.st-hatena.com/image/square/a373bdaaf1d023488c9584a69672c10faf71aa9a/height=288;version=1;width=512/https%3A%2F%2Fproc-cpuinfo.fixstars.com%2Fwp-content%2Fuploads%2F2017%2F10%2Fgpu0-temp-clock.png)