[B! hpc][hardware] dowhileのブックマーク

» Nvidia H100が「アンリ（Henri）」でデビュー、Green500で首位に

dowhile 2022/11/18

hpc
hardware

リンク

COOL Chips 22 - ポスト「京」スパコンに使われるA64FX CPU(3) ポスト「京」のCPU「A64FX」に用いられた通信性能の改善方法

A64FXではリングバスにも工夫がある。4つのCMGとTofu、PCIe、そして割り込みコントローラを繋ぐ2重リングだけでなく、CMG0とCMG1をつなぐリンクとCMG2とCMG3をつなぐリンクが追加されている。リングバスは、115GB/s×2のバンド幅。CMGやI/Oを接続するリングバスは単純なリングではなく、CMG2と3、CMG0と1をつなぐリンクが追加され、CMG間の通信レーテンシを短縮している単純なリングの場合は、CMG2とCMG3の通信とTofuからCMG1への通信が同じ通路を使うことになりコンフリクトが起きる。また、CMG2とCMG1の通信は割り込みコントローラのリングストップを経由するのでパスが長くなってしまう。クロスバにすれば、このような問題はないが、物量が多くなってしまう。このため、右の図のようにCMG2と3、CMG0と1のリンクを追加してCMG間の通信とTofuネ

dowhile 2019/05/12

hpc
hardware

リンク

Hot Chips 30 - DeePhiが語ったディープラーニングのトレンド(2) ディープラーニングでFPGAを使う利点 | マイナビニュース

DPU-Vでの処理の流れ MobileNetでは、まず、層ごとに分解したDepth-wise Convを行い、その後に層間の1×1のPoint-wise Convを行っている。そしてPoint-wise/Depth-wiseのワークロードの比率は棒グラフを見ると3～228まで変動している。このため、DeePhiはDepth-wise ConvとPoint-wise Convの入力バッファを分離し、Depth-wiseは1個のPEで処理し、Point-wiseは4個のPEで並列に処理するアーキテクチャを使うことを考えている。 (a)MobileNetなどでは、Depth-wise Convの直後にPoint-wise Conv処理を行っている。(b)各層でのPW/DWの処理量比率。平均的にはPWはDWの50倍程度。(c)DeePhiはDWには1個のPE，PWには全部のPEを割り当てる Dee

dowhile 2018/10/18

hpc
hardware

リンク

Hot Chips 30 - 16個のGPU接続を実現した小さな巨人「NVSwitch」(前編)

NVSwitchの詳細が公開 NVIDIAは8個のV100 GPUを搭載するDGX-1サーバに続いて、2018年3月のGTC 2018で16個のV100 GPUを搭載するDGX-2サーバを発表した。このDGX-2サーバの高いスケーラビリティを実現した影の主役がNVSwitchと呼ぶNVLinkを接続するスイッチチップである。 NVIDIAはHot Chips 30において、このNVSwitchについて発表を行った。これはNVSwitchに関する初めての学会での詳細な発表である。 Hot Chips 30においてNVSwitchの発表を行うNVIDIAのAlex Ishii氏 NVSwitchの概要次の図に示すDGX-1の8個のV100 GPUの間の接続は、4個のGPUの範囲では、NVLinkの直結の接続があるが、反対側の4個のGPUの間では直結の接続が無く、本来無関係なGPUを1個経由し

dowhile 2018/09/21

hpc
hardware

リンク

Hot Chips 30 - NVIDIAのDeep Learning Accelerator(DLA)(3) NVDLAの構成による性能や電力の変化

構成によるチップ面積、性能、電力の変化構成とチップ面積と性能、電力への影響を考えてみよう。小規模構成はINT8のデータパスで、DRAMへのインタフェースだけ、高度な機能は無しという最低限の構成を考える。一方、大規模構成はINT8に加えてINT16やFP16をサポートし、DRAMに加えて内蔵の高速SRAMを持ち、専用のマイクロコントローラを備え、重みの圧縮機能も持つというようなものを考える。小規模構成は、INT8だけのサポートで、DRAMへのアクセスパスだけで、高度な機能をもっていないものを想定。大規模構成は、INT8に加えてINT16とFP16をサポートし、メモリはDRAMに加えて高速のSRAMを持ち、命令の実行を制御するマイクロコントローラを持つ。さらに、重みの圧縮などの高度な機能をもつものを想定するなお、NVDLAはプロセサがコントロールバスを通して命令の実行を指示し、命令の実行

dowhile 2018/09/21

hpc
hardware

リンク

ウェザーニューズ×NVIDIA、全世界の降水分布を可視化・予測するAIプロジェクト

ウェザーニューズは9月13日、NVIDIAと連携し、気象災害による被害軽減を目的に、全世界の雨の状況を高精度に可視化・予測するAI プロジェクトを開始すると発表した。同プロジェクトにおいて、NVIDIAはGPUコンピューティングのためのハードウェア、ソフトウェアスタック、そしてそのノウハウを提供。NVIDIAのスタートアップ支援プログラムであるInceptionに参画するdAignosisは、NVIDIA DGX-1を駆使したDeep Learning技術の開発を担当。同社は、新たな気象モデルの開発と運営を行う。なお、NVIDIAのAIプラットフォームは、高いコンピューティングパワーだけでなく、コスト削減においても同プロジェクトに大きく貢献。主に経済的な制約により、現在レーダでカバーされている地域は地球上の約17％に限られており、地球すべてをカバーするには、4000基ものレーダが必要と言

dowhile 2018/09/14

hpc
hardware

リンク

Hot Chips 30 - 富士通が発表したPost-Kスパコンのプロセサ(2) ポスト「京」のプロセッサ「A64FX」を読み解く

A64FXコアのパイプラインダイヤグラム次の図にA64FXと富士通のFX100スパコン、京コンピュータの諸機能の一覧を示す。この表を見ると、京コンピュータでは128ビット幅であったSIMD演算が、FX100では256ビット幅に拡張され、さらにA64FXでは512ビット幅と演算性能が強化されていることが分かる。それに加えて、飛び飛びのメモリアドレスをまとめてアクセスするScatter/Gatherなどの機能が強化されたり、AI用にFP16やINT16/8などの低精度演算のサポートなどが追加されてきていることが分かる。 A64FXの機能一覧と富士通のFX100スパコン、京コンピュータとの比較。A64FXではAI向けにFP16とINT16/8の内積演算が追加された次の図はA64FXコアのパイプラインダイヤグラムである。基本的には京コンピュータで開発したSPARC64のパイプライン構造をキー

dowhile 2018/09/01

hpc
hardware

リンク

GTC 2018 - マイクロベンチマークでVoltaを解剖する(4) Voltaの演算性能を読み解く

次のグラフは、CUDA9.0のcuBLASを使って行列の乗算を行った場合の性能をプロットしたものである。グラフの横軸は行列のサイズで、縦軸はTFlops値である。3本の折れ線は、下から順に、倍精度浮動小数点演算、単精度浮動小数点演算、Tensorコアを使う混合精度浮動小数点演算の場合である。行列のサイズがある程度以上大きい場合は、倍精度では7TFlops程度、単精度では14TFlops程度の性能が得られており、これは理論ピーク性能とほぼ一致している。混合精度の場合は、ギザギザした線になっているが、70TFlops強の性能が得られている。理論ピーク性能は113TFlopsであり、cuBLASの使用でピークの70%程度の性能が得られている。 Voltaの浮動小数点演算の性能。行列のサイズが2Kを超えるとほぼ一定の性能になり、倍精度では7TFlops、単精度では14TFlops、混合精度を使う

dowhile 2018/05/30

hpc
hardware

リンク

The Peak-Performance-Percentage Analysis Method for Optimizing Any GPU Workload | NVIDIA Technical Blog

The Peak-Performance-Percentage Analysis Method for Optimizing Any GPU Workload Figuring out how to reduce the GPU frame time of a rendering application on PC is challenging for even the most experienced PC game developers. In this blog post, we describe a performance triage method we’ve been using internally at NVIDIA to let us figure out the main performance limiters of any given GPU workload (a

dowhile 2018/02/27

ピーク性能解析

hpc
hardware

リンク

AVX-512（フォーマット）詳解

3. • 32個の512 bit SIMDレジスタ • zmm0, zmm1, ..., zmm31 • 一つのSIMDレジスタには整数や小数が複数入る • double(64bit) x 8, qword(64bit) x 8, float(32bit) x 16 • dword(32bit) x 16, word(16bit) x 32, byte(8bit) x 64など • 一部の整数は符号あり・符号無しを選択可能 • 下位256bitは従来のymmレジスタとしてアクセス可能 • その下位128bitは従来のxmmレジスタとしてアクセス可能 AVX-512 zmm0 ymm0 xmm0 63 31 15 0 3 / 29 4. • 整数系 ; vp<演算><要素の型> dst, src1, src2 • d(dword x 32)として要素ごとにzmm2 = zmm1 + zmm0

dowhile 2018/02/25

hpc
hardware

リンク

x86/x64最適化勉強会8 レポート - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの光成です。今回は2月17日に開催された「x86/x64最適化勉強会8」の模様についてお伝えします。第7回からなんと約3年振りです。今回の発表内容はAVX-512周りの話が2件、命令の正確なレイテンシの話、年明けから世間を騒がせているMeltdownとSpectreの話が2件でした。以下、それぞれの発表内容について簡単に解説します。 AVX-512関係私の発表は「AVX-512（フォーマット）詳解」でした。 AVX-512はまだSkylake-Xなどの一部のCPUにしか搭載されていませんが、今後徐々に採用が増えるでしょう。（注意）21ページの「3値論理」は「3項論理」の方が適切です。 AVX-512のレジスタ構成や基本的な命令セットを説明した後、AVX2までにはなかったマスクレジスタ、静的丸めモード、ブロードキャストなどの解説をしました。マスクレジスタは便利に

dowhile 2018/02/25

hpc
hardware

リンク

コンピュータアーキテクチャの話(379) 世界一の性能を達成しつつも、目標には届かなかったIBMの「Stretch」

LARCは第1世代のトランジスタを使って作られたが、Stretchは開発時期が1～2年遅かったので、第2世代のディフュージョン型のトランジスタを使うことができた。これにより、トランジスタの信頼度が向上し、特性のばらつきも小さくなった。そして、最も高速と言われる「Current Mode Logic」という基本回路を使ったのであるが、ゲートやメモリの速度は当初の想定より遅く、目標クロックサイクルは100nsであったのであるが、各ユニットのクロックは300～600nsと3～6倍遅くなってしまった。なお、Stretchはユニットごとに独立のクロックドメインを持ち、ユニット間のデータ伝送は非同期という設計であった。結果として、メモリのサイクルタイムは2.1μs、64bitの浮動小数点数の加算は1.5μs、浮動小数点数の乗算は2.7μsで実行できた。LARCの倍精度加算は16μs、倍精度乗算は26

dowhile 2018/02/16

hpc
hardware

リンク

Block-sparse GPU kernels

We’re releasing highly-optimized GPU kernels for an underexplored class of neural network architectures: networks with block-sparse weights. Depending on the chosen sparsity, these kernels can run orders of magnitude faster than cuBLAS or cuSPARSE. We’ve used them to attain state-of-the-art results in text sentiment analysis and generative modeling of text and images. The development of model arch

dowhile 2017/12/26

リンク

NVIDIA，「TITAN V」の国内発売を予告。「時期と価格は追って発表」

NVIDIA，「TITAN V」の国内発売を予告。「時期と価格は追って発表」編集部：佐々山薫郁 2017年12月13日，NVIDIAは，主催するGPU開発者会議「GPU Techno logy Conference」の日本版である「GTC Japan 2017」において，Volta世代初のグラフィックスカードである「NVIDIA TITAN V」（以下，TITAN V）の国内発売を行うと予告した。現在のところ，TITAN Vは2999ドル（税別）で直販サイトからのみ購入できるというステータスで，国内からだと北米の転送業者などを使うしかないが，その意味で，国内発売に関する情報がもたらされたのは大きなニュースと言えるだろう。 GTC Japan 2017の基調講演でTITAN Vを掲げる，NVIDIAのJensen Huang CEO NVIDIA日本代表兼米国本社副社長である大崎真孝氏いわ

dowhile 2017/12/13

hardware
hpc

リンク

Intel、次期Xeon Phiの予定だったKnights Hillを中止

米Intel社は、コロラド州デンバーで開催のスーパーコンピューターの国際会議「SC17」に合わせて発表した同社のブログの中で、第3世代の「Xeon Phi」として予定されていた「Knights Hill」の開発を中止したことを明らかにした。このブログは、同社のTrish Damkroger氏（Vice President of Data Center Group and General Manager of Technical Computing Initiative）が投稿したもの。

dowhile 2017/11/21

Xeon Phiとはなんだったのか

hpc
hardware

リンク

Programming Tensor Cores in CUDA 9 | NVIDIA Technical Blog

A defining feature of the new NVIDIA Volta GPU architecture is Tensor Cores, which give the NVIDIA V100 accelerator a peak throughput that is 12x the 32-bit floating point throughput of the previous-generation NVIDIA P100. Tensor Cores enable you to use mixed-precision for higher throughput without sacrificing accuracy. Tensor Cores provide a huge boost to convolutions and matrix operations. They

dowhile 2017/10/27

hpc
hardware

リンク

Cooperative Groups: Flexible CUDA Thread Programming | NVIDIA Technical Blog

In efficient parallel algorithms, threads cooperate and share data to perform collective computations. To share data, the threads must synchronize. The granularity of sharing varies from algorithm to algorithm, so thread synchronization should be flexible. Making synchronization an explicit part of the program ensures safety, maintainability, and modularity. CUDA 9 introduces Cooperative Groups, w

dowhile 2017/10/13

リンク

EPYC™ memory bound HPC performance – Extended Edition

dowhile 2017/08/09

hpc
hardware

リンク

なぜ、GPUはAIの研究開発に向いているのか

AIやHPC（高性能計算）の分野で注目されているGPU。そのアーキテクチャの特徴や用途をまとめてみます。以前TPUについて書いたときにも触れた通り、現在、ディープラーニングの学習や推論処理にはGPUを使うのが一般的になっています。なぜGPUを使うかというと、「安くて速い」からですが、その理由はアーキテクチャにあります。 GPUのアーキテクチャ GPUはGraphics Processing Unitの略で、その名の通り、3次元グラフィックスに必要な計算を高速に行うために専用に設計されたプロセッサです。Intelなどの汎用プロセッサは、さまざまな計算を行う必要があり、回路も複雑になっています。しかし、グラフィック計算のみを高速に行えればいいGPUは、回路がシンプルになります。汎用プロセッサでも、最近はメニーコアになっていますが、それでも数十程度が一般的です。回路が複雑ということは、チップ

dowhile 2017/07/23

リンク

理化学研究所が世界最大の NVIDIA DGX-1 システムを導入 | NVIDIA

理化学研究所は、文部科学省が進める AIP プロジェクト (人工知能、ビッグデータ/IoT、サイバーセキュリティ統合プロジェクト) の研究開発拠点として昨年、「革新知能統合研究センター」を設置しました。この度、同研究センターにおける人工知能研究を支える大規模計算リソースとして、「ディープラーニング解析システム」が導入されます。富士通株式会社様が受注されたこのシステムでは、GPU 計算ノードとして NVIDIA の「AI スーパーコンピューター」 DGX-1 が採用されました。 DGX-1 は、最新の Pascal アーキテクチャ GPU である Tesla P100 を 8 基搭載し、ディープラーニングの学習処理で活用される半精度浮動小数点 (FP16) 演算では 170 テラフロップスの性能を持ちます。今回の「ディープラーニング解析システム」には 24 台の DGX-1 が導入され、

dowhile 2017/07/21

hpc
hardware

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

hpcとhardwareに関するdowhileのブックマーク (101)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス