[B! cpu][matrix] manabouのブックマーク

manabou id:manabou

cpuとmatrixに関するmanabouのブックマーク (2)

『プロセッサの性能を引き出すのは大変だよというお話(行列積チューニング)』へのコメント続き - Qiita
Kanbayashi Ryo氏の書かれた記事『プロセッサの性能を引き出すのは大変だよというお話(行列積チューニング)』へのコメントの続きです。先の記事に私が書いたコメントコンパイラによる自動ベクトル化でどの程度性能が上がるかを確認した上で、作業的に煩雑な SIMD 命令の使用を検討すべきと思います。について検証してみました。コード1.5 に SIMD 命令の効果的な使用を考えてみます。コード1.5 の内容は先にも書いたように 100401600: c4 c2 7d 19 77 c8 vbroadcastsd -0x38(%r15),%ymm6 100401606: c4 c1 4d 59 ba c0 24 vmulpd -0xdb40(%r10),%ymm6,%ymm7 10040160d: ff ff 10040160f: c5 d5 58 ef vaddpd %ymm7,%y
manabou 2017/02/06
matrix

algorithm

cpu

simd
リンク
いまどきのmatmul
概要経緯 : http://d.hatena.ne.jp/w_o/20141021#1413893835 Host 1700msec、Epiphany 170msecとかになって、さすが、16coreだから10倍速いみたいな話になったが、経験的に、こういうのってナイーブCと比較してるから、普通にマルチスレッド & NEON使えば、10倍差ぐらいすぐはやくなんじゃね？と、思ってNEON + スレッド化matmulを探したのだけど、見当たらなくて、探すより書いたほうがはやそうだったので書いた。というのがあって、今更matmulを実装したのでその話について書く。 1ノード Haswell 正方行列単精度サイズは128の倍数だとか制限付けてもよいという条件でどうやって効率上げていくかについて説明する。今日の結果は N = 2000〜3000 で効率 80% ぐらい。まあ多分もっと
manabou 2017/02/06
matrix

algorithm

cpu
リンク
1