エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
高速演算記 第3回 「チューニング技法その1 CUDAプログラミングガイドからピックアップ」 | G-DEP
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
高速演算記 第3回 「チューニング技法その1 CUDAプログラミングガイドからピックアップ」 | G-DEP
今回はFermi解説から一旦はずれ、実際にプログラムを開発する際のチューニングポイントを紹介したいと思... 今回はFermi解説から一旦はずれ、実際にプログラムを開発する際のチューニングポイントを紹介したいと思います。CPUで実行していたコードをそのままGPU上で動作させても速度向上が得られない場合は以下の点を確認してみてはいかがでしょうか。 まずはじめに基本機能のおさらいをしたいと思います。 前回からご紹介している通り、Fermi内部ではマルチプロセッサと呼ばれる実行ユニットが複数存在しています。各実行ユニットは1つのスケジューラと、32個の演算コアから構成され、スレッドを2サイクルあたり2ワープ処理することが可能となっています。32スレッドをワープと呼ばれる1つの単位として扱い、GPU上でスレッドを実行する上で扱いやすい単位とされています。また、少し粗い単位として複数スレッドをブロックとして扱うことが可能です。1ブロック内の最低スレッド数はありませんので、1スレッドのブロックを構成することも