ふたつのコアで1モジュールを構成する それぞれのコアは、4本の整数パイプと、L1D を持つ 整数は、基本的な演算+メモリアクセスを実行するAGLUx2 と、パイプごとに対応する命令を実行するEXx2の4本 L1I、Fetch、Decode、L2、FPUはふたつのコアで共有されている L1I->Fetchは32Byte、4命令デコード/clk FPUは、4本が色々と命令できて、うち2本が128bit FMAを実行できる 思想としては、 FPUはリソース多く使うので無駄遣いしないように実行効率を上げたい → FPUをヘヴィに使うプログラムでは HT みたいになる 整数は軽いのでたくさん入れたい → サーバー等ではHTよりも絶対性能高い ということなんだと思われる。 命令単位ベンチマーク 実際どうなっているか命令単位でベンチマークしてみる ソース(Win32 cl.exeが必要) 手元(A8-4