タグ

programmingとcpuに関するuokadaのブックマーク (2)

  • みずほ情報総研 : GPUコンピューティングと並列計算

    今、GPUがホットである。1チップで1TFlopsを超える性能は驚異的であり、HPCに限らず広く注目を集めるのも肯ける。しかし、GPUを使いこなすためには並列計算に関するより深い理解が求められる。 GPUコンピューティングと並列計算(PDF/527KB) “フリーランチは終わった。”これはGeForceの父と呼ばれるデヴィッド・カーク博士の言葉である。コンピューターの性能向上は常に日進月歩という枕詞が冠せられてきたが、ここ数年その中身が大きく変ってきた。従来は半導体の微細化→CPUの高クロック化という流れで演算速度が向上してきたが、リーク電流の増大に伴いクロックの向上は頭打ちになってきた(図表1)。一方、微細化はいまだムーアの法則に従って順調に進んでおり、CPUベンダーは性能向上の手段を高クロック化からマルチコア/メニーコア化による並列計算へと大きく舵を切った。先のカーク博士の言葉は、これ

  • CPU とキャッシュのはなし - graphics.hatenablog.com

    別にグラフィックスに限ったことじゃないし、そもそも論文とか全然関係ないけど。GPU 周りでもたまに話題になるし、自分でもたまにわけわからんくなるから整理しとく。 メインメモリは遅い CPU からメインメモリにデータを読みに行く場合、これはとにかく遅い。例えばレジスタにあるデータを読みに行く場合と比べると、だいたい数倍から数100倍の遅さ。ヤバいからなんとかしよう。もっと早くアクセスできる場所にデータおいとこう。 キャッシュライン CPU がメインメモリからデータを読み出すとき、必ず小さなメモリチャンクをキャッシュ上にロードする。ロード単位はプロセッサによるけど、だいたい 8 ~ 512 バイト。このロード単位をキャッシュラインと呼ぶ。 アクセス対象のデータが既にキャッシュに載ってる場合は、メインメモリじゃなくてキャッシュを読みに行く。ない場合はメインメモリにアクセスするけど、そのデータはも

    CPU とキャッシュのはなし - graphics.hatenablog.com
  • 1