タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

cudaに関するTACのブックマーク (1)

  • NEW's blog: CUDA コアレスアクセス

    ようやく、CUDAのcoalesced accessというのが理解出来た。 単純なメモリコピーで、8GB/S程度しか出ていなかったのが、今日、20GB/Sまで向上した。 キモは、 連続したメモリに各スレッドが同時にアクセスする という事。 今までは、画像のフィルターを、ラインに分割して、1ラインを1スレッドにやらせていた。 これだと、全てのスレッドが、担当するラインのピクセルを読み込みに行く。 つまり、非連続なメモリをアクセスするので、読み込みの指令数分だけのアクセスが生じる。 この例で分かりやすく言えば、スレッド数分だけのアクセスが生じるわけだ。 これを、各スレッドが各ピクセルを処理させる様にする。 これがcoalescだ。 スレッド0番は、Pixel0を、スレッド1番は、Pixel1を...と、順番に並べてアクセスさせる。 次のループでは、スレッド数分先を読み込みに行く。 簡単に言えば

  • 1