cudaHostAllocで確保したWriteCombineメモリへのアクセスは、普通のメモリへのアクセスと比較するとかなり遅いです。 条件にもよりますが、数十倍〜数百倍の速度差が発生することもあります。 #include <stdio.h> static inline unsigned int rdtsc() { unsigned int hi, lo; __asm__ __volatile__("rdtsc" :"=a"(lo), "=d"(hi)); (void)hi; return lo; } int main() { void *p, *dst; unsigned int begin, end; size_t size = 10*1024*1024; int nloop = 2; dst = malloc(size); cudaHostAlloc(&p, size, cudaHo