米Metaは4月10日(現地時間)、AIトレーニング高速化のためのカスタムチップ「MTIA」(Meta Training and Inference Accelerator)の第2世代を発表した。 昨年5月に発表したMTIAは、MetaのFacebookやInstagramでのランキングおよび広告レコメンデーション機能などで最適に動作するよう設計されている。AIのトレーニングを効率化し、推論を容易にするのが目的だ。 第2世代のMTIAは、先代のコンピューティング帯域幅とメモリ帯域幅を2倍以上に拡張し、「ユーザーに高品質の推奨を提供するランキングと推奨モデルを効率的に提供するよう設計されている」という。初期のテスト結果では、4つの主要モデルで先代と比較して性能が3倍向上した。 一般的なGPUより大容量のSRAMを使うことでバッチサイズが制限されていても十分なコンピューティングを提供できる。
はじめに NVIDIA A100にて、L2 Cacheの構成が変わったことは、下記のブログで書きました。 vengineer.hatenablog.com 今回は、L2 Cache のサイズが、P100の4MB、V100の6MBから A100 では 40MB (48MB)、H100 では 50MB (60MB) になって、その利用について調べてみました。 NVIDIA GA100 の L2 Cache A100 の L2 Cache は、40MB (GA100では 48MB ですが、A100 としては 40MB しか使えません) と、V100 の 6MB から 大きく増えました。 前回のブログで書いたように、GA100 の L2 Cacheは2つのブロックに分割され、各ブロックは 20MB。20MB は、512KB x 40 個という構成になっています。 GA100は、6個のHBM2e が
AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。 ノイズ除去をバッチ処理で高速化 「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス(CFG)に代わり、残差分類器フリーガイダンス(RCFG
上記の表の「ケージ数」とは、背面にあるcluster network用の通信ポートの口数を表しています。 DGX H100で採用されたtwin port OSFPは、筐体内部で2つのConnectX-7(400Gbps)に接続する構造となっており、1つのトランシーバに2本のケーブルを挿して運用します。そのため、ポート数はケージ数の2倍となります。twin port OSFPを採用したことで、DGX A100ではサーバー背面の約半分を占めていたcluster network部分が、DGX H100ではサーバー背面の中心部分に収まるようになりました。 しばしば、「1つのOSFPトランシーバを使って800Gbpsで通信できる」という記述がされますが、これは単に通信帯域を足し合わせた数値に過ぎず、DGXサーバー間のGPU通信が800Gbpsで行えるという意味ではありませんので注意してください。 c
NVIDIA Deep Learning Performance Documentation - Last updated February 1, 2023 Get Started With Deep Learning Performance This is the landing page for our deep learning performance documentation. This page provides recommendations that apply to most deep learning operations. It also provides links, short explanations of other performance documents, and how these pages fit together. Training Train
Reference documentation CLI reference docker (base command)docker build docker builder docker builderdocker builder builddocker builder prune docker buildx docker buildxdocker buildx bakedocker buildx builddocker buildx createdocker buildx debugdocker buildx debug builddocker buildx dudocker buildx imagetoolsdocker buildx imagetools createdocker buildx imagetools inspectdocker buildx inspectdocker
こんにちは、エス・ワイ・シーの島田圭吾です。 今回は、VMware ESXi 環境でGPUカードを特定の仮想マシンへパススルーして直接利用するための設定手順について記載したいと思います。 パススルーにすることで仮想環境のOSにもGPUカードをそのまま認識することできるのでGPUをフル活用した高度計算処理が行えるようになります。 ここでは、NVIDIA A100 の40GB モデルをパススルーしてみたいと思います。 NVIDIA A100 はこんな感じに黄金に輝いているGPUカードでとても高級感溢れています。 仮想マシンにGPUカードを割り当てるだけではパススルー利用はできません。以下の設定を適切に行う必要があります。 BIOS で仮想化支援機能の有効化ESXi ホストでGPUカードを「パススルーの切り替え」に設定仮想マシンにPCIデバイスとして割り当て仮想マシンの設定調整仮想マシンの設定パ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く