タグ

cudaに関するbutyricacidのブックマーク (13)

  • Luciad | NVIDIA

    NVIDIA® のデータ センター GPU を使用することで、最も要求の厳しい HPC やハイパースケール データ センターのワークロードを高速化できます。データ サイエンティストや研究者は、エネルギー探査からディープラーニングまで、幅広いアプリケーションで、従来の CPU よりもはるかに高速に数ペタバイトのデータを解析できるようになりました。さらに、NVIDIA のアクセラレータは大規模なシミュレーションをかつてない速さで実行するために必要な馬力を提供します。また、NVIDIA GPU によって、仮想デスクトップ、アプリケーション、ワークステーションに最高のパフォーマンスとユーザー密度をもたらします。 NVIDIA のパートナー企業は、多様な AI、HPC、アクセラレーテッド コンピューティング ワークロードに対応できるさまざまな最新サーバーを提供しています。NVIDIA は、ワークロー

  • http://oshiro.bpe.es.osaka-u.ac.jp/people/staff/imura/OpenGL/index_html

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • CUDA実験室 - Satoshi OHSHIMA's web site

    CUDAに関する実験の記録。メモ。その他。 HelloWorld@CUDA DriverAPI版? HelloWorld@CUDA RuntimeAPI版? n-queen@CUDA? プログラミングガイドの一部翻訳および自己解釈メモ atomic命令のチェック? 一部の記事はhttp://www.exth.net/~ohshima/wordpress/へ移動しました。 sampleset.zip 最終更新時間:2007年10月31日 15時23分23秒 リンク元: Menu/Research リンク先: CUDA実験室/プログラミングガイドのメモ/CUDA実験室/HelloWorld@CUDA RuntimeAPI版?/CUDA実験室/HelloWorld@CUDA DriverAPI版?/CUDA実験室/atomic命令のチェック?/CUDA実験室/n-queen@CUDA?

  • サンマヤのプログラミングの部屋 CUDA

    [PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。 CUDAのメジャーバージョンアップ、4.0が発表された。 CUDA 4.0公式ページ 最近ぜんぜんいじっていないし、日語のもいくつか出ているのであまり詳しいことは言えないが、 デバイスコード内でクラス・仮想関数・テンプレート・演算子(Functor)クラスが使えるようになったらしい。 これはプログラミングの幅としてはかなり広がり、 C++のSTLのように、気軽に使えるテンプレートライブラリのようなものが出てくるとさらに敷居が低いものになるだろう。 また今回のアップデートにはNPP(NVIDIA Performance Primitives)というライブラリが加わった。 これはドキュメントを読んでもよく分からなかったが、1次元・2次元のストリーム処理、 つまりは音声や動画のデー

  • CUDA - 基本事項

    CUDAの基事項 作成日 2008/6/5 最終更新日 2008/7/18 CUDAには日語のプログラミングガイド(以下、PG)がついていますが、機械翻訳らしく意味が通らないところがたくさんあります。 そこで、自分の備忘録としての意味も含めて、CUDAにおける基概念についてまとめてみたいと思います。 1.スレッドとブロック(PG第2章) PG2.1節、「メインCPUホストのコプロセッサ」というくだりは、原文では"in main CPU, or host" となっており、 CPU側での処理やCPUのメインメモリなどを「ホスト」と呼ぶ、という意味。これはプログラム上の___host___修飾子の意味づけになっていま す。 スレッドとは、普通のCPUと同じく、ひとつの処理の流れに相当します。 ブロックはスレッドの集まりで、ひとつのブロックに属するスレッドは「共有メモリ(shared me

  • CUDAベンチ2: 社長日記

  • CUDAに触れてみる

    インストール CUDA 1.0 がリリースされた。 あいかわらず、Windows Vista はサポートされていないが。 早速インストールする。 http://developer.nvidia.com/object/cuda.html から Windows Display Driver version 162.01 for CUDA Toolkit version 1.0 CUDA Toolkit version 1.0 for Windows XP (32-bit) CUDA SDK version 1.0 for Windows XP (32-bit) をダウンロードして、この順序でインストールする。 Toolkitは C:\CUDA に、SDKは C:\Program Files\NVIDIA Corporation\NVIDIA CUDA SDK にインストールされる。 ドキュメン

  • CUDAを使う:tech.ckme.co.jp

    ここではGPGPU向け統合環境の一つ、NVIDIAのCUDA(Compute unified device architecture)を使って、大規模並列計算を行ってみる。 NVIDIAによれば、並列度の高い処理ではCPUと比べておよそ10倍以上の速さで処理できるという。 なお、CUDA環境をインストールすると、自動的にOpenCLも使えるようになる。OpenCLに関しては別項を参照。 目次 CUDAのインストール(Linux編) - LinuxにCUDA環境をインストール CUDAのインストール(Windows編) - Windows XPにCUDA環境をインストール CUDAのインストール(Mac OS X編) - Mac OS XにCUDA環境をインストール 初めてのプログラム - とりあえずCUDAでのプログラムに慣れてみます 拡散方程式を解く - より実用的な処理の一例として拡散

  • 【特集】超並列プロセサ - GeForceアーキテクチャとCUDAプログラミング (1) グラフィックプロセッシング | エンタープライズ | マイコミジャーナル

    最近、GPUの計算性能の高さからGPGPU(General Purpose Computation on Graphics Processing Unit)とかGPUコンピューティングとか言われる、GPUを科学技術計算処理に利用する研究が盛んになっている。また、GPUを製造するNVIDIAは、科学技術計算を3Dグラフィックスに続く新市場として捉えており、Teslaという科学技術計算用の製品を発売し、GPU上のプログラム開発環境としてCUDA(Compute Unified Device Architecture)を公開している。但し、NVIDIAのDavid Kirkチーフサイエンティストは最近、"GPGPU is dead, GPU Computing is the future for affordable supercomputing"と題した講演を行っており、同社はGPGPUという

  • CUDA with OpenMPI on Ubuntu 8.04 - NVIDIA Forums

    {{Framework.description ? Framework.description : 'Join the GeForce community. Browse categories, post your questions, or just chat with other members.'}}

  • CUDAで遊んでみた - きしだのHatena

    nVIDIAのGPUで並列計算を行うプログラムをCで書けるっていうCUDAで遊んでみました。 ということで、みしょさんの11以下の素因数を持つ携帯電話番号には価値がない。でのお題をやってみました。 いくつかあるのですが、このお題。 僕の携帯電話番号は113未満の素因数を持ちません。これはどの程度すばらしい電話番号なのでしょう?つまり,80から始まる10桁の自然数について,113未満の素因数を持たないものはどれくらいあるでしょうか? と思ったら、なんだかCUDAでは大きい数字がうまく扱えない様子。 なので、10から始まる9桁の自然数について、113未満の素因数を持たないものを数えてみることにしました。 実行結果は次のとおり ホストが、CPUでやった結果です。 Kernel1が共有メモリを使わずにGPUでやった場合。Kernel2が共有メモリ使った場合。 100000000から10999999

    CUDAで遊んでみた - きしだのHatena
  • NEW's blog: CUDA

    ようやく、CUDAのcoalesced accessというのが理解出来た。 単純なメモリコピーで、8GB/S程度しか出ていなかったのが、今日、20GB/Sまで向上した。 キモは、 連続したメモリに各スレッドが同時にアクセスする という事。 今までは、画像のフィルターを、ラインに分割して、1ラインを1スレッドにやらせていた。 これだと、全てのスレッドが、担当するラインのピクセルを読み込みに行く。 つまり、非連続なメモリをアクセスするので、読み込みの指令数分だけのアクセスが生じる。 この例で分かりやすく言えば、スレッド数分だけのアクセスが生じるわけだ。 これを、各スレッドが各ピクセルを処理させる様にする。 これがcoalescだ。 スレッド0番は、Pixel0を、スレッド1番は、Pixel1を...と、順番に並べてアクセスさせる。 次のループでは、スレッド数分先を読み込みに行く。 簡単に言えば

  • 1