[B! CPU][HPC] yassのブックマーク

yass id:yass

CPUとHPCに関するyassのブックマーク (9)

A Simple Introduction to Superscalar, Out-of-Order Processors
yass 2017/04/01
superscalar

CPU

HPC

unrolling
リンク
HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備
IDF 2012で、2013年に登場と見られるIntelの次世代プロセサ「Haswell」のアーキテクチャが発表された。Haswellのアーキテクチャ全般については大原雄介氏の記事を参照戴くのが分かり易いと思うが、それを補足する意味で、HPC(High Performance Computing)向けの強化ポイントについて詳細に見て行きたい。 Haswellで一番目に付くのは、各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行できるようにした点である。また、32bitの単精度浮動小数点なら32回の演算を実行できる。「京」スパコンに使われている「SPARC64 VIIIfx」とその後継の「SPARC64 IXfx」のコアは8演算、2012年6月にTop500 1位となった「Sequoia」に使われている「BlueGene/Q(
yass 2013/12/07
"各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行 / ベクトルの内積 / Sum＝Xi×Yi+Sumをi=0から順に計算 / この場合は(A×B)+CのCに結果を格納する必要があり、VFMADD231命令が使われる"

HPC

CPU

Intel

haswell

avx

fma
リンク
高並列計算アクセラレータ Intel Xeon Phi Coprocessor 5110P Board
Xeon Phi Coprocessor E5110P Intel MIC 60コアにより1,011GFLOPSの浮動小数点演算理論性能を実現 8GBのGDDR5メモリを320GB/sで高速接続 PCI Express x16でホストサーバと接続２基のXeon Phiを搭載することで2TFLOPSのHPCサーバを実現 FDR InfiniBand接続によりメニーコア機のネットワーク並列処理機を実現 Intel Xeonとはプログラミング・モデルと開発環境を共通化高信頼のHPC ProServerシリーズとセットで提供管理サーバや開発環境などを含めたシステムインテグレーションを提供 3年間の当日オンサイト保守と技術支援を提供高並列計算アクセラレータ Intel Xeon Phi Coprocessor 5110P Board Intel Xeon Phi Copro
yass 2013/09/23
" 性能は限定的に確認/現在はまだ試験導入の段階/適した条件は、計算の粒を8GBのメモリサイズ内に納めることができ、1回のPCIeを経由のデータ転送で十分な量の繰り返し処理を実施でき、しかも高い並列度で動作する計算"

Xeon Phi

intel

cpu

hpc
リンク
68. x86 プロセッサの将来 (2009/2/28)
yass 2013/09/22
" アーキテクチャ的な観点からも、x86 プロセッサの現在の方向が限界にきている / マイクロプロセッサの発展は / 基本的に20-25年前のスーパーコンピューターの発展を後追い "

cpu

x86

hpc
リンク
117. HPC用プロセッサの近未来(2013/7/13)
117. HPC用プロセッサの近未来(2013/7/13) 過去40年間のマイクロプロセッサの進化が、基本的にはハイエンドのメインフレームやスーパーコンピューターの進化を後追いするものであったことは 26 で述べました。大雑把にいって、 1993年の Intel Pentium (ないしは、1989年の Intel 80860) で、完全にパイプライン化された浮動小数点演算器を実現していて、これが 1976 年の Cray-1 に相当します。但し、 90年代初期から 26 を書いた2006年までのほぼ15年間の進化は、ベクトルマシンの1976 年からの15年間の進化とは大きく違った、ということも述べました。ベクトル機のクロック速度は15年間に数倍にしかならなかったのに対して、マイクロプロセッサのクロックは 75 倍にもなったからです。大雑把にいって、この間にトランジスタ数は 5
yass 2013/09/22
" 何故ここまで演算器を増やすことができたか、というと、/ 実際問題として実用アプリケーションのほとんどでは有効に使えていなくても、それにかまわずに演算器とカタログピーク性能をあげてきたことだと思います "

hpc

cpu
リンク
【後藤弘茂のWeekly海外ニュース】 Intelが60コアのメニイコア「Xeon Phi」を正式発表
yass 2013/09/22
"スカラユニットを備えておりx86命令が実行/ GPUは一般にSingle Program, Multiple Data(SPMD)モデルで、ベクタをプログラムに対して露出させない / MICではビジブル / レイテンシは(メモリからキャッシュへの)プリフェッチングで隠蔽"

GPU

HPC

CPU

Intel

Xeon Phi
リンク
インテル® Xeon Phi™の検証結果 | HPCシステムズはすべての研究開発者に計算力を提供します。
Phiは1GHz 200コア(物理50コア × Hyper Threading 4スレッド)サーバと覚えます。つまり、このボードの中に、1GHzで動作するCPUを200コア搭載したLinuxサーバがある、と考えてください。大雑把ですが、それで実体をほぼあらわしています。評価結果を端的に述べますと、Phiには有望３割、失望７割を感じました。詳細を説明いたします。まずは有望なデータから。 2012年現在、インテルのCPU E5-2600シリーズの１ノードとNVIDIAのTesla M2090の1枚は、単精度行列積の性能が674Gflops程度となっています。ベンチマークページそんな中、Phiは１枚で1290Gflops（従来比ほぼ２倍）の実効性能を達成しました！これは潜在的に強力な浮動小数点数演算性能を有していることをアピールしています。また、Phiは「従来のIAアーキテクチャのアプリ
yass 2013/09/22
" つまり、このボードの中に、1GHzで動作するCPUを200コア搭載したLinuxサーバがある、と考えてください。大雑把ですが、それで実体をほぼあらわしています。"

intel

Xeon Phi

hpc

cpu
リンク
Intelコンパイラはここがスゴい、Xeon Phiで自動オフロード
「Intel Parallel Studio XE」が「2013 SP1」にバージョンアップした。プラグマを1行書くだけでXeon Phiや、第3世代Coreプロセッサ以降のCPUが備える統合GPUで演算処理を実行するコードを生成する機能を備えた。米Intelが開発し、エクセルソフトが販売するx86プロセッサ向けソフトウェア開発ツール「Intel Parallel Studio XE」が「2013 SP1」にバージョンアップした。それに含まれるC／C++コンパイラの「Intel C++ Composer」はバージョン14になり、C++11規格やOpenMP 4.0への対応のほか、並列処理を高速実行する機能が追加された。具体的には、Xeon Phiや、第3世代Coreプロセッサ（開発コード名「Ivy Bridge」）以降のCPUが備える統合GPU「Intel HD Graphics」で演算
yass 2013/09/22
"オフロード実行モデルでは、プログラムの起動はホストPC側で行い、ソースコード上の一部分だけをXeon Phiで実行させる。Xeon Phiで実行させるコードの単位は、関数/メソッドだけでなく、forループなど任意の単位で指定可能"

CPU

Xeon Phi

intel

hpc
リンク
デスクトップPC＝スパコン（調達手続き的に）
Satoshi Matsuoka @ProfMatsuoka スパコンの省エネ世界ランキング Green500の2013年前期版が発表。一位の下馬評が関係者では高かったイタリアCINECA研究所に入ったKepler+水冷のEurotech Eurora が3208.83MFLOPS/Wで一位に。http://t.co/KNqgMut2VP 2013-06-29 20:16:54 Satoshi Matsuoka @ProfMatsuoka 二位もEurotech社のスパコンである。エクサフロップスの目標である50GFlops/Wにはまだ遠いが、CPUだけでなく冷却技術を含むシステム技術の進化で段々近づいて来ている。2015年頃と目される次世代GPU/MICでは10GFlops/W達成がが目されている。 2013-06-29 20:20:51 Satoshi Matsuoka @ProfMat
yass 2013/07/02
hpc

haswell

cpu
リンク
1