はじめに NVIDIA Visual Profilerという、CUDAに関する、描画が少しリッチなProfilerがあります。 こんな感じです。 ボトルネックを解析したり、Optimizationしたりするのに有効です。 リモートマシンでInstallしておいて nvvp とすると起動して、以下のようにターミナル端末からX11とかで起動することもできますが 動作が重くなりがちなので、 nvprof でprofilingだけリモートマシンで行なって、 scp でローカルマシンに結果を飛ばして、 ローカルの NVIDIA Visual Profilerを使う という一連の流れを紹介したいと思います。 (なお、リモートマシンは nvprofが使えることを前提としてます) 公式のドキュメントはここにあります。(英語) http://docs.nvidia.com/cuda/profiler-use