エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Optimizing Parallel Reduction in CUDA の抄訳
この文書は Paralle Reduction の項にある Whitepaper の抄訳です。 CUDAでプログラムを書くにあたって... この文書は Paralle Reduction の項にある Whitepaper の抄訳です。 CUDAでプログラムを書くにあたってのテクニックが多数詰まっています。 並列リダクション (Parallel Reduction) リダクションは並列データ処理を構成する一般的かつ重要な部品である。 CUDAでの実装は容易だが理解するのは実装よりも困難である。 最適化の非常に有益な事例である。 この文書では7種類の異なるバージョンを一つずつ検証する。 それぞれの thread block では(二分)木構造ベースのアプローチを用いる。 (実装にあたっては)、一つの対象について複数の thread block を用いて reduction を実行できるようにする必要がある。 巨大な配列に対して処理を行う場合に全ての multiprocessor を稼動させる ためには、各 thread block
2011/04/26 リンク