タグ

GPUとcudaに関するy_uukiのブックマーク (12)

  • More modern gpu

    GPUがなぜ速いのか,またその上でどのようなデータ構造やアルゴリズム,ライブラリが使えるのかを説明します。特にMapReduceなどの非均質で,離散的なアルゴリズムがいかに高速に実現されるかを紹介します。 実験に使ったコード https://github.com/hillbig/gpuexperiments セミナーの動画 https://www.youtube.com/watch?v=WmETPBK3MOIRead less

    More modern gpu
  • File Not Found: Indiana University

    File Not FoundSorry for the inconvenience, the page you requested could not be found.

  • Modern GPU

    © 2013, NVIDIA CORPORATION. All rights reserved. Code and text by Sean Baxter, NVIDIA Research. (Click here for license. Click here for contact information.) Modern GPU is code and commentary intended to promote new and productive ways of thinking about GPU computing. This project is a library, an algorithms book, a tutorial, and a best-practices guide. If you are new to CUDA, start here. If you'r

  • hgpu.org

    Energy consumption has become a critical design metric and a limiting factor in the development of future computing architectures, from small wearable devices to large-scale leadership computing facilities. The predominant methods in energy management optimization are focused on CPUs. However, GPUs are increasingly significant and account for the majority of energy consumption in heterogeneous hig

    hgpu.org
  • 自宅サーバのcuda環境を3.2→4.0にバージョンアップ - Flicker's Style++

    的にはドキュメントに書いてある通りセットアップすればOK http://developer.nvidia.com/cuda-toolkit-40 自宅サーバのOSはCentOS 5.6。 私は雰囲気でインストールしてたらこんなエラーが出るようになってしまった。 $ ./deviceQuery [deviceQuery] starting... ./deviceQuery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 38 -> no CUDA-capable device is detected [deviceQuery] test results... FAILED Press ENTER to exit... ドキュメント

    自宅サーバのcuda環境を3.2→4.0にバージョンアップ - Flicker's Style++
  • NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う

    NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う ライター:米田 聡 NVIDIAの開発するGPUコンピューティング向け開発環境「CUDA」。その最新版「CUDA 5」は,2012年8月からリリース候補版がダウンロード可能になっていたが,いよいよ正式版がリリースされることになった。 それに合わせ,アジア太平洋地域の報道関係者を対象とした電話会議が開催され,CUDA 5の概要が語られたので,今回はその内容を簡単にまとめてみたい。 GK110コアの「Tesla K20」に向けた準備が整うCUDA 5 電話会議で説明を担当したのは,米NVIDIAでGPUコンピューティングソフトウェア部門でシニアプロダクトマネージャを務めるWill Ramey氏だ。同氏が示したCUDA 5のトピックは下に示したスライドのとおりで,これらは第2世代Keplerアーキテク

    NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う
  • CUDA実験室/プログラミングガイドのメモ - Satoshi OHSHIMA's web site

    CUDA Programming Guideを読んでわかりにくいところ、しっかり把握しないといけないところのメモ。まだまだちゃんと読めていない・理解できていない・活用方法がわかっていない部分もあるので、内容に間違いが含まれている可能性は否定できません。 ※fswikiの文法の都合で2連続アンダースコアが綺麗に出せないので、下線付き文字列があったら脳内補間してください。 変数と関数に関するメモ Chapter 4とChapter 5を交互に読むのがめんどくさいので、まとめて日語化。 関数の種類に関するメモ 4.2.1 Function Type Qualifiersより、また一部情報はChapter 5. Performance Guidelinesとあわせて。 関数の種類 device GPUが呼び出し、GPUが実行 global CPUが呼び出し、GPUが実行 host CPUが呼び出

  • 第1回 関東GPGPU勉強会 TopCoder/NVIDIA主催CUDAプログラミングコンテスト参加記

    2.  @foota / nox  並列処理のコードを書くIT企業に勤務  並列処理・GPGPU機械学習  以前は某研究機関の研究員  分子動力学(MD)計算  創薬の研究  「良いもの。悪いもの。」  http://handasse.blogspot.com/ 4.  世界で最も規模の大きい競技プログラミ ングを運営する組織  代表的なプログラミングコンテストとし て、数時間の短期間で問題を解くSRMと 数週間の長期間で問題を解くマラソン マッチ(MM)がある  今日話すCUDA Superhero Challengeは GPGPUを利用したマラソンマッチ  最近ではデータマイニングなどの機械学 習を利用した賞金付きマラソンマッチが 多い

    第1回 関東GPGPU勉強会 TopCoder/NVIDIA主催CUDAプログラミングコンテスト参加記
  • CUDAプログラムの時間を計測する - clock()編 - CUDA Information Site

    CUDAにはclock()という組み込み関数が用意されています。 これを使ってプログラムの時間を計測してみましょう。 clock()関数 clock()関数は、デバイスプログラムの経過時間を返す関数です。 単位は将来変更される可能性がありますが、今のところシェーダクロック単位になっているようです。 関数を呼ぶだけで簡単に使えるので、ちょっとした処理の時間を計測するのに便利です。 1 #include <stdio.h> 2 3 __global__ void 4 calc_clock(int *clock_data, float *out, 5 float *in1, float *in2) 6 { 7 int tx = threadIdx.x; 8 unsigned int begin,end; 9 10 begin = clock(); // 開始時間 11 out[tx] = in

  • MappedMemoryを使う - CUDA Information Site

    9月30日 --- サンプルのソースコードにおいて、Kernelの終了を待っていないため正しく結果が得られない問題を修正しました。 --- Mapped Memoryとは? Mapped MemoryはCUDA 2.2から導入された新機能です。 今までのCUDAプログラミングにおいては、Host Memory(ホストマシン上のメインメモリ)と Device Memory(GPU上のビデオメモリ)はまったく別個のアドレス空間上のメモリとして明確に分けられていました。 しかし、Mapped Memoryを使用することによって、これらの違いを明確に区別せずCUDAプログラミングを行うことができるようになります。 もっとも、Mapped Memoryを使用する来の目的は、上記のような利便性より実際的な性能向上にあります。 Host MemoryとDevice Memoryの間のデータ転送は、

  • ひびろぐ ver.3.1 » CUDA 通信と計算のオーバーラップを試した

    昨日はPage-LockedHostMemoryでカオスったわけだが、今日はオーバーラップでカオスることにする。 まぁ昨日のよりは納得がいくものが見えてる。 プログラミングガイドを読む 3.2.6.2 Overlap of Data Transfer and Kernel Execution 「page-lockedメモリとデバイスメモリ間のコピー」と「GPUカーネル実行」は平行実行できるよ! deviceOverlapプロパティが有効であることが必要だよ! 「CUDA arrayやcudaMallocPitchを用いたCUDA 2D array」以外で使えるよ! that do not involveってのがどこまでかかるのか(or以降までかかるのか)ちょっと不安だけど…… 実験してみる シンプルに、行列積を繰り返し実行するプログラムを書いた。 今回はカーネルがどうでも良いので、呼び出し

  • [pdf]CUDA テクニカル. トレーニング. Vol I: CUDA プログラミング入門. Q2 2008. 制作および提供: NVIDIA

    CUDA Vol I: CUDA Q2 2008 : NVIDIA GPU ..............................................................................1 CUDA ....................................................................10 CUDA ....................................................................................25 ........................................................................................56 G8x ...................

  • 1