Last modified This is the CPU profiler we use at Google. There are three parts to using it: linking the library into an application, running the code, and analyzing the output. On the off-chance that you should need to understand it, the CPU profiler data file format is documented separately, here. Linking in the Library To install the CPU profiler into your executable, add -lprofiler to the link-
iPadやiPhone 4に搭載されている「Apple A4」について、ちょっと気になったので調べてみた。 Apple A4は、CPUやGPUを統合したシステムチップだ。 Appleがデザインし、Samsungが製造している。iPhone 3GSと同じCPUとGPUをワンチップに集積し、1GHzにクロックアップしたものとして紹介されている。しかし、CPUクロックが600MHzから1GHzになった程度では、それほど劇的な性能アップにはならない。それで画面解像度が4倍になったら動作はもっさりと遅くなるはずだが、iPadは軽快に動作する。さらにHDクオリティのビデオ再生までこなす。その秘密はどこにあるのだろう? Apple A4の内訳を見ると、CPUにはARMのCortex-A8、 GPUにPowerVR SGXを採用している。これらは、最近の高性能スマートフォンによく採用されているポピュラーな
[GDC 2010]GPUとCPUを併用したゲーム開発のお供に。VS2008 SP1用のデバッガ「Parallel Nsight」 ライター:本間 文 「GeForce GTX 480」とParallel Nsight,VS2008 SP1の組み合わせが,最強のDirectX開発環境だと紹介された Game Developers Conference 2010で,NVIDIAは,「NVIDIA's New Game Development Environment」(NVIDIAの新しいゲーム開発環境)というセッションを開催。そこで,GPUとCPU両方をカバーするリアルタイムデバッガ「NVIDIA Parallel Nsight」(以下,Parallel Nsight)を用いた,ゲームのデバッグとチューニング手法を紹介した。 「Nsight」は,NVIDIAの「N」と「Insight」(洞察
この間のインタプリタをはじめから・・・で問題がありご指摘を受けました。 ですので次回より修正を行い、今回は GPGPU を使った計算についてやりたいと思います。 今回 nVidia の GeForce 8800 GTX というボードが手に入りましたので、専用の言語 (現在 GF8x 系のみで動作可能) であるCUDAを利用したいと思います。 CPUからの命令でGPUメモリのGPUのデータ領域のメモリを確保 CPUからGPUへメモリ内容をコピー GPUで演算処理、エラーの有無をチェック GPUからCPUへ出力用メモリ内容をコピー という流れで処理を行います。 注意しなければならない点としてGPUからCPUにメモリ内容をコピーする際、GPU内部で出力用メモリに書き出しが行われなかった場合、前回の出力結果とまったく同じものが出てきます。 (再起動してもフラッシュされない場合もありました。)
CPU-GPU間データ転送の方法について CPU→GPU 1 : LockRect/UnlockRect CPU→GPU 2 : サーフェイス間転送 CPU→GPU 3 : 生成時データセット GPU→CPU 1 : LockRect/UnlockRect GPU→CPU 2 : GetRenderTargetData CPU-GPU間データ転送の方法について CPU-GPU間のデータ転送には,いくつかの方法がある. CPU→GPU 1 GPU上のメモリに対してLockRect/UnlockRectで書き換える方法. CPU→GPU 2 CPU側にGPU上と同様な形式のメモリを確保し、サーフェイス間転送命令で一気に書き換える方法. CPU→GPU 3 テクスチャを生成するとともに、データのセットを行う関数を利用する方法. GPU→CPU 1 CPU→GPU 1 の逆. GPU→CPU 2
2008年9月9日より3日間、昭和女子大を会場にして、日本最大級のゲーム開発者会議「CEDEC 2008」が開催された。 CEDECは最新の3Dグラフィックス技術や次世代のゲーム開発技術までを取り扱ったカンファレンスであり、今年は著名人の講演や、かなり具体性を持った次世代技術の発表が行われ、非常に注目度の高い内容となった。 本誌では会期中行われたセッションのうち、特に興味深かったものについて紹介していくとしよう。 まずは、Unreal Engineの設計者であり、長きにわたって最新ハードウェアと最新ソフトウェア技術との関係を現場で見続けてきたEPIC GAMESのTIM SWEENEYの講演「未来のゲーム開発テクノロジー」からレポートしたい。 TIM SWEENEY氏が語るコンピューティング未来像 基本的にゲームは、これまでの多くのソフトウェアがそうであったように、単発の完結したプログラム
第2回 現代のプロセッサと並列実行 株式会社フィックスターズ 中村 孝史 2009/8/24 CPUの周波数の高速化競争が頭打ちになり、1コアにおける処理能力は限界となった。CPUの進化がマルチコア化に向かった結果、並列コンピューティングの門戸が開かれた(編集部) プロセッサのハードウェアは、並列プログラムとは切っても切れない関係にあります。 第1回「並列処理を体感してみよう」で説明したとおり、並列プログラムが流行する背景には、直列プログラムの高速化の限界があります。この限界は、並列化を引き起こしたというだけでなく、これまでの汎用プロセッサではあまり見られないメモリアクセスの方法や、命令実行の方法を採用したプロセッサの登場を引き起こしました。 かつてプログラムの最適化というものは、命令実行に必要なクロック数や、命令数、レジスタ数を考慮したプログラムを書くという意味でした。現代ではこれらの最
辻 寛之 日本ヒューレット・パッカード インテルは2006年末にクアッドコアXeonプロセッサを出荷し,これによりクアッドコア時代が到来した。一方のAMDも,開発の遅れもあって2008年になってしまったが,クアッドコアOpteronプロセッサを出荷した。現在は両社が出そろった状況である。 クアッドコア・プロセッサについても,両社の実装方法は異なっている(図1)。インテルXeonのクアッドコアは,非常に簡単に言えば,2つのデュアルコア・プロセッサを1つにパッケージ化したイメージである。一方のAMD Opteronでは,コアごとにL2キャッシュを用意し,さらに4つのコアでL3キャッシュを共有することで性能向上を図るアーキテクチャである。 この3年の性能向上は7倍にも クアッドコアを使うと,どれだけ性能が向上するのだろうか。図2にSPEC(Standard Performance Evaluat
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く