タグ

nVidiaとGPGPUに関するaontのブックマーク (1)

  • 高速演算記 第3回 「チューニング技法その1 CUDAプログラミングガイドからピックアップ」 | G-DEP

    今回はFermi解説から一旦はずれ、実際にプログラムを開発する際のチューニングポイントを紹介したいと思います。CPUで実行していたコードをそのままGPU上で動作させても速度向上が得られない場合は以下の点を確認してみてはいかがでしょうか。 まずはじめに基機能のおさらいをしたいと思います。 前回からご紹介している通り、Fermi内部ではマルチプロセッサと呼ばれる実行ユニットが複数存在しています。各実行ユニットは1つのスケジューラと、32個の演算コアから構成され、スレッドを2サイクルあたり2ワープ処理することが可能となっています。32スレッドをワープと呼ばれる1つの単位として扱い、GPU上でスレッドを実行する上で扱いやすい単位とされています。また、少し粗い単位として複数スレッドをブロックとして扱うことが可能です。1ブロック内の最低スレッド数はありませんので、1スレッドのブロックを構成することも

  • 1