タグ

ブックマーク / oshiro.bpe.es.osaka-u.ac.jp (5)

  • ハードウェアの事情

    論理的側面 CUDAで実行される多数の thread は、 論理的には一つの grid が複数の block に分けられ、 それぞれの block が複数の thread を含むという 階層的な構成になっています。 一つの grid が一つのプログラムに対応します(という理解でよいと思います)。 一つの grid は論理的には最大 2^16 x 2^16 の block で構成されます。 一つの block は最大で512の thread で構成されます。 shared memory は block ごとに独立して割り当てられ、 一つの block が確保できる shared memory の論理的な 最大サイズは 16KB です。 Streaming Multiprocessor (SM) 論理的には全ての thread が同時に実行されていると考えればよく、 またそう考えてプログラムを

    aont
    aont 2015/02/24
  • OpenGLでオフスクリーンレンダリング: framebuffer object

    目標 OpenGLにはこれまで、プラットフォームに依存しないテクスチャへ直接レンダリングを行う手法は 存在していませんでしたが、framebuffer object が規定され、ウィンドウ以外への オフスクリーンレンダリングが可能になったことで、テクスチャへのレンダリングも プラットフォームに依存せず行えるようになりました。 ここでは framebuffer object の概要について記述します。 framebuffer object とは framebuffer object は、OpenGLでプラットフォームに依存せず オフスクリーンレンダリングを実現する機構です。 OpenGL 2.0 の正式仕様には取り込まれていません。 OpenGL拡張 EXT_framebuffer_object として規定されています。 従来のフレームバッファは、実際の表示ウィンドウと密接に関連付けられて

    aont
    aont 2011/07/16
  • CUDA と OpenGL の相互運用(interoperability)

    aont
    aont 2011/02/27
  • Optimizing Parallel Reduction in CUDA の抄訳

    この文書は Paralle Reduction の項にある Whitepaper の抄訳です。 CUDAでプログラムを書くにあたってのテクニックが多数詰まっています。 並列リダクション (Parallel Reduction) リダクションは並列データ処理を構成する一般的かつ重要な部品である。 CUDAでの実装は容易だが理解するのは実装よりも困難である。 最適化の非常に有益な事例である。 この文書では7種類の異なるバージョンを一つずつ検証する。 それぞれの thread block では(二分)木構造ベースのアプローチを用いる。 (実装にあたっては)、一つの対象について複数の thread block を用いて reduction を実行できるようにする必要がある。 巨大な配列に対して処理を行う場合に全ての multiprocessor を稼動させる ためには、各 thread block

    aont
    aont 2010/12/03
  • CUDAに触れてみる (OLD)

    インストール CUDA 1.0 がリリースされた。 あいかわらず、Windows Vista はサポートされていないが。 早速インストールする。 http://developer.nvidia.com/object/cuda.html から Windows Display Driver version 162.01 for CUDA Toolkit version 1.0 CUDA Toolkit version 1.0 for Windows XP (32-bit) CUDA SDK version 1.0 for Windows XP (32-bit) をダウンロードして、この順序でインストールする。 Toolkitは C:\CUDA に、SDKは C:\Program Files\NVIDIA Corporation\NVIDIA CUDA SDK にインストールされる。 ドキュメン

    aont
    aont 2010/11/27
  • 1