[B! nvidia] dannのブックマーク

Data Center Best Practices with DGX B200

dann 2024/07/23

リンク

GitHub - NVIDIA/cuda-samples: Samples for CUDA Developers which demonstrates features in CUDA Toolkit

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

dann 2024/06/25

リンク

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models

NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models Nemotron-4 340B, a family of models optimized for NVIDIA NeMo and NVIDIA TensorRT-LLM, includes cutting-edge instruct and reward models, and a dataset for generative AI training. NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training la

dann 2024/06/20

nemo
nvidia

リンク

nvidia-dockerが突然GPUを認識しなくなる問題

以下の記事で対処法について知った。なお、この問題についてはnvidia-dockerがISSUEの原因と対処法について文書を公開している。原因は、簡単にいうと、cgroupの管理がsystemctlとdockerとで競合しているということらしい。cgroupの管理をsystemctl以外にすることがワークアラウンドになる。 nvidia-dockerの次のpactch releaseで解決する予定とのこと。 2024/08/17 追記: NVIDIA/nvidia-container-toolkitにissueが移されたあと進捗なし。環境

dann 2024/06/18

リンク

https://www.t4.gsic.titech.ac.jp/sites/default/files/2024-06/TITECH_DLHackathon_NV_202406.pdf

dann 2024/06/12

リンク

NVIDIA Performance Libraries (NVPL)

dann 2024/05/09

リンク

GitHub - NVIDIA/cuda-checkpoint: CUDA checkpoint and restore utility

dann 2024/05/02

nvidia

リンク

Nvidia-smi

dann 2024/04/24

gpu
nvidia

リンク

さくらインターネット、AI半導体1万個調達へ　従来計画の5倍 - 日本経済新聞

さくらインターネットは19日、米エヌビディアなどから画像処理半導体（GPU）8000個を追加調達すると発表した。人工知能（AI）の開発に使うスーパーコンピューターの整備に向け、GPUを組み込んだ高性能サーバーを増やす。従来計画と合わせて2027年末までに合計1万個のGPUを購入する。さくらネットは23年以降、エヌビディアなどから2000個のGPUの調達を進めている。エヌビディア製のGPUの調達

dann 2024/04/19

nvidia

リンク

デル・テクノロジーズ、『NVIDIA GTC』で「Dell PowerEdge」を発表－ AIの導入・活用を加速 | Dell Technologies

ブログ原稿　https://www.dell.com/en-us/blog/dell-poweredge-xe9680-ai-acceleration-announcements-at-nvidia-gtc/ 筆者： Robert McNeal | 2024年3月18日『NVIDIA GPU Techno logy Conference（GTC）』は、AIイノベーター、AIデベロッパー、AIに高い関心を寄せているお客様を対象に、NVIDIAが開催するイベントです。デル・テクノロジーズは、AIインフラストラクチャー分野におけるリーダーの1社であり、NVIDIAとのテクノロジーコラボレーションをベースとする最新の成果を同イベントで紹介しました。展示会ブースとオンラインのバーチャルセッションで、「Dell Generative AI Solutions with NVIDIA」や、お客様の

dann 2024/04/11

nvidia
bf3

リンク

Nvidia’s Blackwell Offers FP4, Second-Gen Transformer Engine - EE Times

dann 2024/03/28

nvidia

リンク

nvidia-blackwell-architecture-technical-brief.pdf

dann 2024/03/20

リンク

GitHub - NVIDIA/NeMo-Curator: Scalable data pre processing and curation toolkit for LLMs

dann 2024/03/17

nemo
llm

リンク

AIネットワークにおけるGPUと光モジュールの比率と需要の分析 - Qiita

市場では、光モジュールとGPUの比率を計算するための複数のアプローチが存在し、一貫性のない結果をもたらしています。これらの違いの主な原因は、さまざまなネットワーク構造に実装される光モジュールの数の変動に由来しています。必要な光モジュールの正確な数量は、いくつかの重要な要因に主に依存しています。ネットワークカードモデル主に2つのネットワークカードが含まれており、ConnectX-6（200Gb/s、主にA100と使用される）とConnectX-7（400Gb/s、主にH100と使用される）です。同時に、次世代のConnectX-8 800Gb/sが2024年にリリースされる予定です。スイッチモデル主に2種類のスイッチが含まれており、QM 9700スイッチ（32ポートOSFP 2x400Gb/s）があります。合計64チャンネルの400Gb/sの転送速度と、合計51.2Tb/sのスルー

dann 2024/03/03

リンク

NVIDIA Mellanox ConnectX-7 の lspci での見え方 - Vengineerの妄想

はじめに NVIDIA Mellanox ConnectX-7 を lspci で見るとどんな感じになっているかを知ることができました。 Multifunction に見える Google君に聞いたら、 NVIDIA ConnectX-7 Adapter Cards User Manual が見つかった。47頁に次のような記載があった。 Single-port PCIe x16 Card # lspci | grep mellanox -ia 3:00.0 Infiniband controller: Mellanox Techno loges TM2910 Family [ConnectX-7] Dual-port PCIe x16 Card # lspci | grep mellanox -ia 86:00.0 Infiniband controller: Mellanox Techno

dann 2024/02/20

リンク

NVIDIA A100/H100 のL2 Cacheについて、再度調べた - Vengineerの妄想

はじめに NVIDIA A100にて、L2 Cacheの構成が変わったことは、下記のブログで書きました。 vengineer.hatena blog.com 今回は、L2 Cache のサイズが、P100の4MB、V100の6MBから A100 では 40MB (48MB)、H100 では 50MB (60MB) になって、その利用について調べてみました。 NVIDIA GA100 の L2 Cache A100 の L2 Cache は、40MB (GA100では 48MB ですが、A100 としては 40MB しか使えません) と、V100 の 6MB から大きく増えました。前回のブログで書いたように、GA100 の L2 Cacheは2つのブロックに分割され、各ブロックは 20MB。20MB は、512KB x 40 個という構成になっています。 GA100は、6個のHBM2e が

dann 2024/02/09

nvidia
gpu

リンク

NVIDIA’s New Ethernet Networking Platform for AI Available Soon From Dell Technologies, Hewlett Packard Enterprise, Lenovo

NVIDIA’s New Ethernet Networking Platform for AI Available Soon From Dell Techno logies, Hewlett Packard Enterprise, Lenovo End-to-End Platform Features Latest NVIDIA Spectrum-X Networking, Provides Foundation for Customers to Transf orm Business With AI NVIDIA today announced that Dell Techno logies, Hewlett Packard Enterprise and Lenovo will be the first to integrate NVIDIA Spectrum-X™ Ethernet net

dann 2023/11/24

nvidia

リンク

A Look at the Liquid Cooled Supermicro SYS-821GE-TNHR 8x NVIDIA H100 AI Server

dann 2023/11/02

リンク

GitHub - NVIDIA/TensorRT-LLM: TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorR

TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines. It also includes a backend for integration with the NVIDIA Triton Inferen