タグ

fmaに関するyassのブックマーク (2)

  • FMA (Fused Multiply-Add) について色んな観点でまとめてみた - 小清水さんとコンピューター数学

    小清水 (@curekoshimizu) です。 日は FMA についてお話したいと思います。 FMA とは? FMA とは Fused Multiply-Add ことで の演算のことです。 ここで は の丸めを表しました。 当にただこれだけの内容なのですが、 今回の記事は、この FMA について熱く書いてみたいと思います。 FMA について書くモチベーションなのですが、 ブログは 精度に関する話題 を多く取り上げてきました。 その中で FMA と関係する話題が非常に多く登場し、 これからも登場予定 です。 そのたびに、 FMA について補足すべきことが多く、 ここでまとめておこうと思い立ちました。 例えばこの記事で FMA 命令と丸め誤差の話がすでに登場しています: math-koshimizu.hatenablog.jp この記事を読むと 1. FMA の凄さがわかる 精度や高速

    yass
    yass 2017/08/12
  • HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備

    IDF 2012で、2013年に登場と見られるIntelの次世代プロセサ「Haswell」のアーキテクチャが発表された。Haswellのアーキテクチャ全般については大原雄介氏の記事を参照戴くのが分かり易いと思うが、それを補足する意味で、HPC(High Performance Computing)向けの強化ポイントについて詳細に見て行きたい。 Haswellで一番目に付くのは、各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行できるようにした点である。また、32bitの単精度浮動小数点なら32回の演算を実行できる。 「京」スパコンに使われている「SPARC64 VIIIfx」とその後継の「SPARC64 IXfx」のコアは8演算、2012年6月にTop500 1位となった「Sequoia」に使われている「BlueGene/Q(

    HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備
    yass
    yass 2013/12/07
    "各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行 / ベクトルの内積 / Sum=Xi×Yi+Sumをi=0から順に計算 / この場合は(A×B)+CのCに結果を格納する必要があり、VFMADD231命令が使われる"
  • 1