A64FXではリングバスにも工夫がある。4つのCMGとTofu、PCIe、そして割り込みコントローラを繋ぐ2重リングだけでなく、CMG0とCMG1をつなぐリンクとCMG2とCMG3をつなぐリンクが追加されている。 リングバスは、115GB/s×2のバンド幅。CMGやI/Oを接続するリングバスは単純なリングではなく、CMG2と3、CMG0と1をつなぐリンクが追加され、CMG間の通信レーテンシを短縮している 単純なリングの場合は、CMG2とCMG3の通信とTofuからCMG1への通信が同じ通路を使うことになりコンフリクトが起きる。また、CMG2とCMG1の通信は割り込みコントローラのリングストップを経由するのでパスが長くなってしまう。 クロスバにすれば、このような問題はないが、物量が多くなってしまう。このため、右の図のようにCMG2と3、CMG0と1のリンクを追加してCMG間の通信とTofuネ
DPU-Vでの処理の流れ MobileNetでは、まず、層ごとに分解したDepth-wise Convを行い、その後に層間の1×1のPoint-wise Convを行っている。そしてPoint-wise/Depth-wiseのワークロードの比率は棒グラフを見ると3~228まで変動している。このため、DeePhiはDepth-wise ConvとPoint-wise Convの入力バッファを分離し、Depth-wiseは1個のPEで処理し、Point-wiseは4個のPEで並列に処理するアーキテクチャを使うことを考えている。 (a)MobileNetなどでは、Depth-wise Convの直後にPoint-wise Conv処理を行っている。(b)各層でのPW/DWの処理量比率。平均的にはPWはDWの50倍程度。(c)DeePhiはDWには1個のPE,PWには全部のPEを割り当てる Dee
NVSwitchの詳細が公開 NVIDIAは8個のV100 GPUを搭載するDGX-1サーバに続いて、2018年3月のGTC 2018で16個のV100 GPUを搭載するDGX-2サーバを発表した。このDGX-2サーバの高いスケーラビリティを実現した影の主役がNVSwitchと呼ぶNVLinkを接続するスイッチチップである。 NVIDIAはHot Chips 30において、このNVSwitchについて発表を行った。これはNVSwitchに関する初めての学会での詳細な発表である。 Hot Chips 30においてNVSwitchの発表を行うNVIDIAのAlex Ishii氏 NVSwitchの概要 次の図に示すDGX-1の8個のV100 GPUの間の接続は、4個のGPUの範囲では、NVLinkの直結の接続があるが、反対側の4個のGPUの間では直結の接続が無く、本来無関係なGPUを1個経由し
構成によるチップ面積、性能、電力の変化 構成とチップ面積と性能、電力への影響を考えてみよう。小規模構成はINT8のデータパスで、DRAMへのインタフェースだけ、高度な機能は無しという最低限の構成を考える。一方、大規模構成はINT8に加えてINT16やFP16をサポートし、DRAMに加えて内蔵の高速SRAMを持ち、専用のマイクロコントローラを備え、重みの圧縮機能も持つというようなものを考える。 小規模構成は、INT8だけのサポートで、DRAMへのアクセスパスだけで、高度な機能をもっていないものを想定。大規模構成は、INT8に加えてINT16とFP16をサポートし、メモリはDRAMに加えて高速のSRAMを持ち、命令の実行を制御するマイクロコントローラを持つ。さらに、重みの圧縮などの高度な機能をもつものを想定する なお、NVDLAはプロセサがコントロールバスを通して命令の実行を指示し、命令の実行
ウェザーニューズは9月13日、NVIDIAと連携し、気象災害による被害軽減を目的に、全世界の雨の状況を高精度に可視化・予測するAIプロジェクトを開始すると発表した。 同プロジェクトにおいて、NVIDIAはGPUコンピューティングのためのハードウェア、ソフトウェアスタック、そしてそのノウハウを提供。NVIDIAのスタートアップ支援プログラムであるInceptionに参画するdAignosisは、NVIDIA DGX-1を駆使したDeep Learning技術の開発を担当。同社は、新たな気象モデルの開発と運営を行う。 なお、NVIDIAのAIプラットフォームは、高いコンピューティングパワーだけでなく、コスト削減においても同プロジェクトに大きく貢献。主に経済的な制約により、現在レーダでカバーされている地域は地球上の約17%に限られており、地球すべてをカバーするには、4000基ものレーダが必要と言
A64FXコアのパイプラインダイヤグラム 次の図にA64FXと富士通のFX100スパコン、京コンピュータの諸機能の一覧を示す。この表を見ると、京コンピュータでは128ビット幅であったSIMD演算が、FX100では256ビット幅に拡張され、さらにA64FXでは512ビット幅と演算性能が強化されていることが分かる。 それに加えて、飛び飛びのメモリアドレスをまとめてアクセスするScatter/Gatherなどの機能が強化されたり、AI用にFP16やINT16/8などの低精度演算のサポートなどが追加されてきていることが分かる。 A64FXの機能一覧と富士通のFX100スパコン、京コンピュータとの比較。A64FXではAI向けにFP16とINT16/8の内積演算が追加された 次の図はA64FXコアのパイプラインダイヤグラムである。基本的には京コンピュータで開発したSPARC64のパイプライン構造をキー
次のグラフは、CUDA9.0のcuBLASを使って行列の乗算を行った場合の性能をプロットしたものである。グラフの横軸は行列のサイズで、縦軸はTFlops値である。3本の折れ線は、下から順に、倍精度浮動小数点演算、単精度浮動小数点演算、Tensorコアを使う混合精度浮動小数点演算の場合である。 行列のサイズがある程度以上大きい場合は、倍精度では7TFlops程度、単精度では14TFlops程度の性能が得られており、これは理論ピーク性能とほぼ一致している。混合精度の場合は、ギザギザした線になっているが、70TFlops強の性能が得られている。理論ピーク性能は113TFlopsであり、cuBLASの使用でピークの70%程度の性能が得られている。 Voltaの浮動小数点演算の性能。行列のサイズが2Kを超えるとほぼ一定の性能になり、倍精度では7TFlops、単精度では14TFlops、混合精度を使う
The Peak-Performance-Percentage Analysis Method for Optimizing Any GPU Workload Figuring out how to reduce the GPU frame time of a rendering application on PC is challenging for even the most experienced PC game developers. In this blog post, we describe a performance triage method we’ve been using internally at NVIDIA to let us figure out the main performance limiters of any given GPU workload (a
3. • 32個の512 bit SIMDレジスタ • zmm0, zmm1, ..., zmm31 • 一つのSIMDレジスタには整数や小数が複数入る • double(64bit) x 8, qword(64bit) x 8, float(32bit) x 16 • dword(32bit) x 16, word(16bit) x 32, byte(8bit) x 64など • 一部の整数は符号あり・符号無しを選択可能 • 下位256bitは従来のymmレジスタとしてアクセス可能 • その下位128bitは従来のxmmレジスタとしてアクセス可能 AVX-512 zmm0 ymm0 xmm0 63 31 15 0 3 / 29 4. • 整数系 ; vp<演算><要素の型> dst, src1, src2 • d(dword x 32)として要素ごとにzmm2 = zmm1 + zmm0
サイボウズ・ラボの光成です。 今回は2月17日に開催された「x86/x64最適化勉強会8」の模様についてお伝えします。 第7回からなんと約3年振りです。 今回の発表内容はAVX-512周りの話が2件、命令の正確なレイテンシの話、年明けから世間を騒がせているMeltdownとSpectreの話が2件でした。 以下、それぞれの発表内容について簡単に解説します。 AVX-512関係 私の発表は「AVX-512(フォーマット)詳解」でした。 AVX-512はまだSkylake-Xなどの一部のCPUにしか搭載されていませんが、今後徐々に採用が増えるでしょう。 (注意)21ページの「3値論理」は「3項論理」の方が適切です。 AVX-512のレジスタ構成や基本的な命令セットを説明した後、AVX2までにはなかったマスクレジスタ、静的丸めモード、ブロードキャストなどの解説をしました。 マスクレジスタは便利に
LARCは第1世代のトランジスタを使って作られたが、Stretchは開発時期が1~2年遅かったので、第2世代のディフュージョン型のトランジスタを使うことができた。これにより、トランジスタの信頼度が向上し、特性のばらつきも小さくなった。そして、最も高速と言われる「Current Mode Logic」という基本回路を使ったのであるが、ゲートやメモリの速度は当初の想定より遅く、目標クロックサイクルは100nsであったのであるが、各ユニットのクロックは300~600nsと3~6倍遅くなってしまった。なお、Stretchはユニットごとに独立のクロックドメインを持ち、ユニット間のデータ伝送は非同期という設計であった。 結果として、メモリのサイクルタイムは2.1μs、64bitの浮動小数点数の加算は1.5μs、浮動小数点数の乗算は2.7μsで実行できた。LARCの倍精度加算は16μs、倍精度乗算は26
We’re releasing highly-optimized GPU kernels for an underexplored class of neural network architectures: networks with block-sparse weights. Depending on the chosen sparsity, these kernels can run orders of magnitude faster than cuBLAS or cuSPARSE. We’ve used them to attain state-of-the-art results in text sentiment analysis and generative modeling of text and images. The development of model arch
NVIDIA,「TITAN V」の国内発売を予告。「時期と価格は追って発表」 編集部:佐々山薫郁 2017年12月13日,NVIDIAは,主催するGPU開発者会議「GPU Technology Conference」の日本版である「GTC Japan 2017」において,Volta世代初のグラフィックスカードである「NVIDIA TITAN V」(以下,TITAN V)の国内発売を行うと予告した。 現在のところ,TITAN Vは2999ドル(税別)で直販サイトからのみ購入できるというステータスで,国内からだと北米の転送業者などを使うしかないが,その意味で,国内発売に関する情報がもたらされたのは大きなニュースと言えるだろう。 GTC Japan 2017の基調講演でTITAN Vを掲げる,NVIDIAのJensen Huang CEO NVIDIA日本代表兼米国本社副社長である大崎真孝氏いわ
A defining feature of the new NVIDIA Volta GPU architecture is Tensor Cores, which give the NVIDIA V100 accelerator a peak throughput that is 12x the 32-bit floating point throughput of the previous-generation NVIDIA P100. Tensor Cores enable you to use mixed-precision for higher throughput without sacrificing accuracy. Tensor Cores provide a huge boost to convolutions and matrix operations. They
In efficient parallel algorithms, threads cooperate and share data to perform collective computations. To share data, the threads must synchronize. The granularity of sharing varies from algorithm to algorithm, so thread synchronization should be flexible. Making synchronization an explicit part of the program ensures safety, maintainability, and modularity. CUDA 9 introduces Cooperative Groups, w
AIやHPC(高性能計算)の分野で注目されているGPU。そのアーキテクチャの特徴や用途をまとめてみます。 以前TPUについて書いたときにも触れた通り、現在、ディープラーニングの学習や推論処理にはGPUを使うのが一般的になっています。なぜGPUを使うかというと、「安くて速い」からですが、その理由はアーキテクチャにあります。 GPUのアーキテクチャ GPUはGraphics Processing Unitの略で、その名の通り、3次元グラフィックスに必要な計算を高速に行うために専用に設計されたプロセッサです。Intelなどの汎用プロセッサは、さまざまな計算を行う必要があり、回路も複雑になっています。しかし、グラフィック計算のみを高速に行えればいいGPUは、回路がシンプルになります。 汎用プロセッサでも、最近はメニーコアになっていますが、それでも数十程度が一般的です。回路が複雑ということは、チップ
理化学研究所は、文部科学省が進める AIP プロジェクト (人工知能、ビッグデータ/IoT、サイバーセキュリティ統合プロジェクト) の研究開発拠点として昨年、「革新知能統合研究センター」を設置しました。 この度、同研究センターにおける人工知能研究を支える大規模計算リソースとして、「ディープラーニング解析システム」が導入されます。富士通株式会社様が受注されたこのシステムでは、GPU 計算ノードとして NVIDIA の「AI スーパーコンピューター」 DGX-1 が採用されました。 DGX-1 は、最新の Pascal アーキテクチャ GPU である Tesla P100 を 8 基搭載し、ディープラーニングの学習処理で活用される半精度浮動小数点 (FP16) 演算では 170 テラフロップスの性能を持ちます。 今回の「ディープラーニング解析システム」には 24 台の DGX-1 が導入され、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く