[B! CUDA] hat_0024_enaのブックマーク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

hat_0024_ena 2011/05/11

　コンパイル OpenCL→プログラム実行時（OpenCLの強みを殺せば<デバイスに依存してもよければ>ビルド時でも）　CUDA→ビルド時

OpenCL
CUDA

リンク

CUDA技術を利用したGPUコンピューティングの実際（前編） ―― グラフィックス分野で磨かれた並列処理技術を汎用数値計算に応用

CUDA技術を利用したGPUコンピューティングの実際（前編） ―― グラフィックス分野で磨かれた並列処理技術を汎用数値計算に応用下馬場朋禄，伊藤智義 2．CUDAとは CUDAを用いてGPUを制御する場合，GPUを装備したコンピュータは，GPUを制御するという意味で「ホスト・コンピュータ」（以下，ホスト）と呼ばれます．GPUは，ホスト側から見ると高性能なコプロセッサとして扱うことができます． ● プロセッサが1クロックで積和演算を実行 CUDA対応GPUのハードウェア構成を図2に示します．「マルチプロセッサ」と呼ばれる回路ブロックが複数並んだ構成になっています．一つのマルチプロセッサの中には，「ストリーム・プロセッサ」〔参考文献（1）ではこのプロセッサを「Processor」と呼んでいる．また，前節では「統合シェーダ」と呼んだ．便宜上，以降ではストリーム・プロセッサと呼ぶことにする〕

hat_0024_ena 2011/04/26

ストリームプロセッサ数

CUDA

リンク

Optimizing Parallel Reduction in CUDA の抄訳

この文書は Paralle Reduction の項にある Whitepaper の抄訳です。 CUDAでプログラムを書くにあたってのテクニックが多数詰まっています。並列リダクション (Parallel Reduction) リダクションは並列データ処理を構成する一般的かつ重要な部品である。 CUDAでの実装は容易だが理解するのは実装よりも困難である。最適化の非常に有益な事例である。この文書では7種類の異なるバージョンを一つずつ検証する。それぞれの thread block では(二分)木構造ベースのアプローチを用いる。 (実装にあたっては)、一つの対象について複数の thread block を用いて reduction を実行できるようにする必要がある。巨大な配列に対して処理を行う場合に全ての multiprocessor を稼動させるためには、各 thread block

hat_0024_ena 2011/04/26

速度向上 http://gpu-computing.gsic.titech.ac.jp/node/48 の「CUDAプログラムの最適化」と合わせて

CUDA

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

CUDAに関するhat_0024_enaのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス