[B! GPU][cuda] y_uukiのブックマーク

More modern gpu

GPUがなぜ速いのか，またその上でどのようなデータ構造やアルゴリズム，ライブラリが使えるのかを説明します。特にMapReduceなどの非均質で，離散的なアルゴリズムがいかに高速に実現されるかを紹介します。実験に使ったコード https://github.com/hillbig/gpuexperiments セミナーの動画 https://www.youtube.com/watch?v=WmETPBK3MOIRead less

y_uuki 2015/12/19

GPU
cuda

リンク

File Not Found: Indiana University

File Not FoundSorry for the inconvenience, the page you requested could not be found.

y_uuki 2013/07/16

リンク

Modern GPU

© 2013, NVIDIA CORPORATION. All rights reserved. Code and text by Sean Baxter, NVIDIA Research. (Click here for license. Click here for contact information.) Modern GPU is code and commentary intended to promote new and productive ways of thinking about GPU computing. This project is a library, an algorithms book, a tutorial, and a best-practices guide. If you are new to CUDA, start here. If you'r

y_uuki 2013/05/21

リンク

hgpu.org

Energy consumption has become a critical design metric and a limiting factor in the development of future computing architectures, from small wearable devices to large-scale leadership computing facilities. The predominant methods in energy management optimization are focused on CPUs. However, GPUs are increasingly significant and account for the majority of energy consumption in heterogeneous hig

y_uuki 2013/05/19

リンク

自宅サーバのcuda環境を3.2→4.0にバージョンアップ - Flicker's Style++

基本的にはドキュメントに書いてある通りセットアップすればOK http://developer.nvidia.com/cuda-toolkit-40 自宅サーバのOSはCentOS 5.6。私は雰囲気でインストールしてたらこんなエラーが出るようになってしまった。 $ ./deviceQuery [deviceQuery] starting... ./deviceQuery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 38 -> no CUDA-capable device is detected [deviceQuery] test results... FAILED Press ENTER to exit... ドキュメント

y_uuki 2012/12/30

リンク

NVIDIA，「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う

NVIDIA，「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整うライター：米田聡 NVIDIAの開発するGPUコンピューティング向け開発環境「CUDA」。その最新版「CUDA 5」は，2012年8月からリリース候補版がダウンロード可能になっていたが，いよいよ正式版がリリースされることになった。それに合わせ，アジア太平洋地域の報道関係者を対象とした電話会議が開催され，CUDA 5の概要が語られたので，今回はその内容を簡単にまとめてみたい。 GK110コアの「Tesla K20」に向けた準備が整うCUDA 5 電話会議で説明を担当したのは，米NVIDIAでGPUコンピューティングソフトウェア部門でシニアプロダクトマネージャを務めるWill Ramey氏だ。同氏が示したCUDA 5のトピックは下に示したスライドのとおりで，これらは第2世代Keplerアーキテク

y_uuki 2012/12/30

リンク

CUDA実験室/プログラミングガイドのメモ - Satoshi OHSHIMA's web site

CUDA Programming Guideを読んでわかりにくいところ、しっかり把握しないといけないところのメモ。まだまだちゃんと読めていない・理解できていない・活用方法がわかっていない部分もあるので、内容に間違いが含まれている可能性は否定できません。 ※fswikiの文法の都合で２連続アンダースコアが綺麗に出せないので、下線付き文字列があったら脳内補間してください。変数と関数に関するメモ Chapter 4とChapter 5を交互に読むのがめんどくさいので、まとめて日本語化。関数の種類に関するメモ 4.2.1 Function Type Qualifiersより、また一部情報はChapter 5. Performance Guidelinesとあわせて。関数の種類 device GPUが呼び出し、GPUが実行 global CPUが呼び出し、GPUが実行 host CPUが呼び出

y_uuki 2012/12/24

GPU
cuda

リンク

第1回関東GPGPU勉強会 TopCoder/NVIDIA主催CUDAプログラミングコンテスト参加記

2.  @foota / nox  並列処理のコードを書くIT企業に勤務  並列処理・GPGPU  機械学習  以前は某研究機関の研究員  分子動力学(MD)計算  創薬の研究  「良いもの。悪いもの。」  http://handasse.blogspot.com/ 4.  世界で最も規模の大きい競技プログラミングを運営する組織  代表的なプログラミングコンテストとして、数時間の短期間で問題を解くSRMと数週間の長期間で問題を解くマラソンマッチ(MM)がある  今日話すCUDA Superhero Challengeは GPGPUを利用したマラソンマッチ  最近ではデータマイニングなどの機械学習を利用した賞金付きマラソンマッチが多い

y_uuki 2012/06/07

GPU
CUDA

リンク

CUDAプログラムの時間を計測する - clock()編 - CUDA Information Site

CUDAにはclock()という組み込み関数が用意されています。これを使ってプログラムの時間を計測してみましょう。 clock()関数 clock()関数は、デバイスプログラムの経過時間を返す関数です。単位は将来変更される可能性がありますが、今のところシェーダクロック単位になっているようです。関数を呼ぶだけで簡単に使えるので、ちょっとした処理の時間を計測するのに便利です。 1 #include <stdio.h> 2 3 __global__ void 4 calc_clock(int *clock_data, float *out, 5 float *in1, float *in2) 6 { 7 int tx = threadIdx.x; 8 unsigned int begin,end; 9 10 begin = clock(); // 開始時間 11 out[tx] = in

y_uuki 2012/01/29

cuda
gpu

リンク

MappedMemoryを使う - CUDA Information Site

9月30日 --- サンプルのソースコードにおいて、Kernelの終了を待っていないため正しく結果が得られない問題を修正しました。 --- Mapped Memoryとは？ Mapped MemoryはCUDA 2.2から導入された新機能です。今までのCUDAプログラミングにおいては、Host Memory（ホストマシン上のメインメモリ）と Device Memory（GPU上のビデオメモリ）はまったく別個のアドレス空間上のメモリとして明確に分けられていました。しかし、Mapped Memoryを使用することによって、これらの違いを明確に区別せずCUDAプログラミングを行うことができるようになります。もっとも、Mapped Memoryを使用する本来の目的は、上記のような利便性より実際的な性能向上にあります。 Host MemoryとDevice Memoryの間のデータ転送は、

y_uuki 2012/01/28

cuda
GPU

リンク

ひびろぐ ver.3.1 » CUDA 通信と計算のオーバーラップを試した

昨日はPage-LockedHostMemoryでカオスったわけだが、今日はオーバーラップでカオスることにする。まぁ昨日のよりは納得がいくものが見えてる。プログラミングガイドを読む 3.2.6.2 Overlap of Data Transfer and Kernel Execution 「page-lockedメモリとデバイスメモリ間のコピー」と「GPUカーネル実行」は平行実行できるよ！ deviceOverlapプロパティが有効であることが必要だよ！「CUDA arrayやcudaMallocPitchを用いたCUDA 2D array」以外で使えるよ！ that do not involveってのがどこまでかかるのか（or以降までかかるのか）ちょっと不安だけど…… 実験してみるシンプルに、行列積を繰り返し実行するプログラムを書いた。今回はカーネルがどうでも良いので、呼び出し

y_uuki 2012/01/28

cuda
GPU

リンク

[pdf]CUDA テクニカル. トレーニング. Vol I: CUDA プログラミング入門. Q2 2008. 制作および提供: NVIDIA

CUDA Vol I: CUDA Q2 2008 : NVIDIA GPU ..............................................................................1 CUDA ....................................................................10 CUDA ....................................................................................25 ........................................................................................56 G8x ...................

y_uuki 2011/10/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

GPUとcudaに関するy_uukiのブックマーク (12)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス