長い前置きも終わったところで、SSE4に話を移そう。このSADの計算を行う命令として、既にSSE2にPSADBWという命令が用意されている。命令フォーマットは、 PSADBW xmm1, xmm2 で、xmm1とxmm2にそれぞれ8つずつのByte値で前画像と現画像の値を入れると、SADsが計算されてxmm1に返される。面白いのは128bitモードだと、これを同時に2つ実行できるのだが、SADsの値も2つ返ってくる事だ。対してSSE4で用意されるMPSADBWは、 MPSADBW xmm1, xmm2, imm8 という構造をとる(Photo09)。面白いのは内部にSource Shifterを装備することで、この命令1個でまとめて8種類のSADsを計算できることだ。xmm1で前画像を、xmm2で現画像を8箇所分指定しておくと、その8つのSADsをまとめてxmm1に入れて返してくれるという