というかんじになりました. GTX 670では,そもそも速度差があんまりなくて,conflictの影響も比較的少ない. GTX 580では,かなり効果は顕著で,conflictもけっこう効く.と言ったところでしょうか. GTX 670ってFLOPSではGTX 580とは比べ物にならないほど速いし,メモリ速度も192GB/sで同じなのに,実アプリでは逆転してこの差.悲しい・・・. 全体コード CUDA 4.1以降とOpenCV 2.3以降を想定してます. 時間計測の関係でカーネルの終了を同期的に待ったり,関数を細かく分けたりとかごちゃごちゃしたことをしてます. main.cpp #include <iostream> #include <opencv2/opencv.hpp> void initialize(int _w, int _h); void send(unsigned *h_src