タグ

ブックマーク / daily.belltail.jp (2)

  • CUDAの分かりやすい資料 | さかな前線

    CUDAの解説で,分かりやすくてシンプルにまとまってる資料を見つけました〜. いずれもPDF注意です. 東京大学情報基盤センター・大島聡史先生による『これからの並列計算のためのGPGPU連載講座』より, GPUとGPGPU歴史と特徴 GPGPUプログラミング環境 CUDA入門編 GPGPUプログラミング環境 CUDA最適化編 特別編 CUDAプログラミング Windows編 疎行列ベクトル積を題材としたCUDA最適化プログラミング 特に2と3は非常に良いです.必読です. あと,プログラムはちゃんと写経しましょう.ぼけーっと写すだけでもぜんぜん理解が違います. CUDA4.0のような最新の技法・アーキテクチャ等はともかく,また量的にまだまだいろいろ書かれてないことはあるでしょうけど,基を押さえるのによいです.

    yass
    yass 2013/09/26
    "東京大学情報基盤センター・大島聡史先生による『これからの並列計算のためのGPGPU連載講座』より,"
  • SSEとAVXで高次元ベクトルの内積計算を高速化してみた | さかな前線

    世界最速のお魚と言えばカジキ類で,泳ぐ速度は時速100km/hを超えるとか.55ノット程になるのでこれはMk-48魚雷にも匹敵するほどです. 一方ちょっとチートな高速お魚としては,お馴染みトビウオが飛行中に最大70km/hほどに達するとか. 今日はそんな若干チートな高速化のお話(?)ということで,SSE組み込み命令について. SSEやAVXといえばお馴染みSIMD命令で,それをプログラムから構造体と関数の形式で高移殖に記述する方法がSIMD組み込み関数(SIMD Intrinsic)なわけですが,これを使ってごく典型的なベクトルの内積計算を高速化してみました. ベクトルの内積の高速化と言えば星の数ほどもされてる話なわけで,いまさら魚の情報なんか役に立つ気は全くしないのですが,純粋に自分でやらないとわかんない>< ということで, とにかく書いてみよう 効果の程はいかに? を調べてみたくて,や

    yass
    yass 2013/08/13
    " SSEやAVXといえばお馴染みSIMD命令 / これを使ってごく典型的なベクトルの内積計算を高速化 / 最大で10倍のスループットというのは驚き / 8192次元,データ量にして8192*sizeof(float)*2=64KBに達すると,速度差がなくなってますね"
  • 1