cudaMemcpyの実行時間を計測してみました。環境条件は次の通りです。 CUDA 2.3 GeForce 9800GT 1KB転送 とりあえず1KBの転送をしてみます。 コード #include <algorithm> #include <cstdio> #include <ctime> #include <stdint.h> #define N 1024 static inline void print_msec(const char * s, clock_t c) { double msec = (static_cast<double>(c) / CLOCKS_PER_SEC) * 1000; printf("%s : %f\n", s, msec); } int main(void) { uint8_t * d_tmp = NULL; uint8_t input[N]; uint