例によってppu-gccでコンパイルしたコードの実行結果は遅いのですが、XLCの実行結果をもってしてもP4に勝てませんはPentium4を上回りました。だた、SPUx1, SPUx2で実行時間に殆ど差がありません(表には記載していませんが、SPUx4では僅かに速度が低下してしまいます)。 (5/17追記) Pentium4 SSE版にバグがありました。行列の初期化が本来必要な量の1/4しかできていませんでした。どおりで早いはずです。バグ修正版の測定データーに上記の表を更新しました。Pentium4はスカラー演算版でも18.81sで計算を行っていたので、SSEを使用してもほとんど高速化しないということになります。この結果はちょっと謎ですが、Pentium4の場合、単精度浮動小数点の足し算レベルではFPUとSSEで性能差がないということになります。 今回のプログラムは、行列の初期値を生成するた
![Cell vs Pentium4 - SIMD演算編 - Todotaniのはやり物Log](https://cdn-ak-scissors.b.st-hatena.com/image/square/8b1d894127b11af79fcf0b7099a278777d2d309b/height=288;version=1;width=512/https%3A%2F%2Ftodotani.cocolog-nifty.com%2Fblog%2Fimages%2Fmatirxaddsimd.jpg)