先日のテストでは Atom に匹敵する実行速度を出していながら、浮動小数演算では 大きく差をつけられる結果となりました。 もう少し詳しく調べたところ、いろいろわかってきました。 結論は ・VFP が遅い ・NEON の SIMD 2/4 を使えばかなり速い ・NEON の単精度スカラー同士の演算は VFP なので遅い 今回は直接命令毎の実行速度を測ってみます。例えば整数乗算なら下記のような感じで。 省略していますが実際には mul 命令を 40 個並べています。 これを 100M 回 (1億) ループします。 static void Start_ASMINT_MUL() { TimerClass timer; timer.Begin(); __asm__ __volatile__( "\ mov r2, #123 \n\ " : : : "r2","cc" ); for( int i= 0