CUDAに関するhat_0024_enaのブックマーク (3)

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

    hat_0024_ena
    hat_0024_ena 2011/05/11
     コンパイル OpenCL→プログラム実行時(OpenCLの強みを殺せば<デバイスに依存してもよければ>ビルド時でも) CUDA→ビルド時
  • CUDA技術を利用したGPUコンピューティングの実際(前編) ―― グラフィックス分野で磨かれた並列処理技術を汎用数値計算に応用

    CUDA技術を利用したGPUコンピューティングの実際(前編) ―― グラフィックス分野で磨かれた並列処理技術を汎用数値計算に応用 下馬場 朋禄,伊藤 智義 2.CUDAとは CUDAを用いてGPUを制御する場合,GPUを装備したコンピュータは,GPUを制御するという意味で「ホスト・コンピュータ」(以下,ホスト)と呼ばれます.GPUは,ホスト側から見ると高性能なコプロセッサとして扱うことができます. ● プロセッサが1クロックで積和演算を実行 CUDA対応GPUのハードウェア構成を図2に示します.「マルチプロセッサ」と呼ばれる回路ブロックが複数並んだ構成になっています.一つのマルチプロセッサの中には,「ストリーム・プロセッサ」〔参考文献(1)ではこのプロセッサを「Processor」と呼んでいる.また,前節では「統合シェーダ」と呼んだ.便宜上,以降ではストリーム・プロセッサと呼ぶことにする〕

    hat_0024_ena
    hat_0024_ena 2011/04/26
    ストリームプロセッサ数
  • Optimizing Parallel Reduction in CUDA の抄訳

    この文書は Paralle Reduction の項にある Whitepaper の抄訳です。 CUDAでプログラムを書くにあたってのテクニックが多数詰まっています。 並列リダクション (Parallel Reduction) リダクションは並列データ処理を構成する一般的かつ重要な部品である。 CUDAでの実装は容易だが理解するのは実装よりも困難である。 最適化の非常に有益な事例である。 この文書では7種類の異なるバージョンを一つずつ検証する。 それぞれの thread block では(二分)木構造ベースのアプローチを用いる。 (実装にあたっては)、一つの対象について複数の thread block を用いて reduction を実行できるようにする必要がある。 巨大な配列に対して処理を行う場合に全ての multiprocessor を稼動させる ためには、各 thread block

    hat_0024_ena
    hat_0024_ena 2011/04/26
    速度向上 http://gpu-computing.gsic.titech.ac.jp/node/48 の「CUDAプログラムの最適化」と合わせて
  • 1