[B! gpgpu][cuda] fubar_fooのブックマーク

Faster Parallel Reductions on Kepler | NVIDIA Technical Blog

Parallel reduction is a common building block for many parallel algorithms. A presentation from 2007 by Mark Harris provided a detailed strategy for implementing parallel reductions on GPUs, but this 6-year old document bears updating. In this post I will show you some features of the Kepler GPU architecture which make reductions even faster: the shuffle (SHFL) instruction and fast device memory a

fubar_foo 2015/04/07

gpgpu
cuda

リンク

CUDAcuda妖精's

今回から何回かに分けてThrustのお話をします。非常に有用なものである分他に資料も多いですが、触れずに置くのはコンセプトからしてナシだと思いましたので。第1回の今回はまずvectorについてごく簡単に、配列の代わりに使う程度までの話をしましょう。 Thrustとは？ Thrustは端的にいうならばC++におけるSTLに相当するようなライブラリです(違いはもちろん多くありますが)。 CUDA 4.0以降自動的にインストールされるようになっているので使うのにインストールなどは必要ありません。 C++においては特にパフォーマンスを求める場合などを除き「配列ではなくvectorを使っておけ」なんて言われるものですが、CUDAにおいても特別な理由がない限り配列ではなくThrustのvectorを活用するのが良いでしょう。それぐらい有用なものです。 Thrustを使わない場合これまでCUDAの

fubar_foo 2015/04/01

cuda
gpgpu

リンク

第６回　CUDAプログラミングモデル① | G-DEP

第６回　「CUDAプログラミングモデル①」＜＜　第５回　　　｜　　　目次に戻る　　　｜　　　第７回　＞＞今まで色々とCUDAを用いたGPUコンピューティングについてお話してきましたが、いまいちCUDAってまだよく分からないという方もいるかもしれません。今回は、CUDAがどうGPUと絡んでくるのか、C言語とどう違うのかなど、CUDAプログラミングの概念についてなるべく分かりやすく要点を押さえて解説していきたいと思います。このCUDAプログラミングモデルこそGPUコンピューティングのキモになってきますので、しっかりと勉強するため次回と合わせて２回に分けてお送りします。それではまずはもう一度CUDAについての話から始めましょう。 NVIDIAはGPUシリーズを開発・展開していく中で、2006年に発表されたGeForce 8800では、それまでハードの部分でグラフィックス専用の構造だったと

fubar_foo 2015/01/09

cuda
gpgpu

リンク

Kepler GPUアーキテクチャとプログラム最適化(2) GPUはどうやって命令を処理しているのか

GPUの命令の実行方法 CPUでは、基本的に1つの命令列で一組のデータを処理する。これに対して、GPUでは命令列は1つであるが、多数のデータの組を並列に処理するという方法を採る。例えば、3次元図形の頂点の座標変換を行うには、それぞれの頂点座標に変換行列を掛ける。この時、複雑な図形であれば頂点は多数あるが、変換行列を掛ける手順(プログラムの命令列)はすべて同じである。つまり、1つの命令列で、多数の異なる頂点座標データに同じ変換行列を掛けてやれば、多数の頂点の座標の変換を行うことができる。これは、座標変換を行うプログラム(スレッド)を並列に実行したことと同じである。NVIDIAは、この処理方法をSIMT(Single Instruction Multiple Thread)と呼んでいる。 GK110のような複雑なチップの全貌を1つの図にまとめるのは難しいが、おおよそ、上の図のような構造になって