エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
HPL を CUDAで (1) - トータル・ディスクロージャ・サイト(事実をありのままに)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
HPL を CUDAで (1) - トータル・ディスクロージャ・サイト(事実をありのままに)
HPL の DGEMM ルーチンのみを、CUDA に含まれる cuBLAS に置き換えただけのものを作成してみたことがあ... HPL の DGEMM ルーチンのみを、CUDA に含まれる cuBLAS に置き換えただけのものを作成してみたことがあります。 Tesla1060 を搭載したマシンで、DGEMM 以外の BLAS ルーチンは MKL を使いました。 ここに、nVIDIA のシニアエンジニアが CPU との連携を含めたもののレポートがあり、ACM でも既にペーパーになっているので、いまさらの感は否めませんでしたが、手習いとして・・・ DGEMM は完全に Tesla 上で動作させているので、4GB のメモリを持っている tesla1060 では N=16200 が限度です。また、同時に複数のプロセスから tesla を使うことは出来ないのは当たり前なので、まずはシリアルです。 最初回したとき、だいたい 13GFlops 程度、つまりコア1個分の性能しか出ておらず悲しくなりましたが、そもそも Tesla の