[B! gpu] dannのブックマーク

GPUの奪い合いは今よりも激化する｜erukiti

この記事では、GPUの売れ行きは落ちず、むしろ奪い合いが今よりも激しくなると考える根拠をまとめている。 DeepSeek社が、教師なし強化学習を使って、強力なモデルを作り上げた。そのときにかかった費用が通常よりはるかに安く抑えられたということで話題になっている。もちろんDeepSeek社がこれまでに発表してきた様々なDeepSeekシリーズは非常に優れており、多くの情報も公開されていて「偉大」なのは間違いない。ところが、それをもってしてGPUが不要という結論にはならない。 GPU不要論はこれまで何度も繰り返されてきたが、残念ながら現状の技術ではそうはならず、むしろ今回の件で、GPU奪い合いはより熾烈になる。そう考える根拠を、「いま」「AGI/ASI達成後」の二つの視座でお伝えしよう。なお、株式市場は、技術をあまり理解せずに、買いや、パニック売りをするような、謎の感情が支配的なため、

dann 2025/01/30

gpu

リンク

EthernetベースのGPUクラスタ導入による学びと展望

NVIDIA AI Summit Japan 2024にて発表した内容です。登壇日： 2024年11月13日イベントリンク： https://www.nvidia.com/ja-jp/events/ai-summit/ 登壇動画： https://www.nvidia.com/ja-jp/on…

dann 2024/12/06

network
gpu

リンク

https://mdx.jp/wp-content/uploads/2022/08/hpc185_sugiki.pdf

dann 2024/10/11

リンク

生成AI向けパブリッククラウドサービスをつくってみた話 | さくらのナレッジ

こんにちは。さくらのナレッジ編集部です。 7月に開催されたJANOG54 Meetingで「生成AI向けパブリッククラウドサービスをつくってみた話」について、さくらインターネット高峯誠さん、井上喬視さん、平田大祐さんが登壇しました。その内容をレポートします。生成AI向け基盤について、まずは時系列を用いて概要を説明します。2011年に、さくらインターネットは北海道石狩に自社運営の石狩データセンタを開所しました。2016年9月に初めてGPUのコンピューティングリソースを提供する「さくらの専用サーバ高火力」シリーズのサービスを開始し、2020年7月にはさくらの専用サーバの新しいネットワーク基盤「さくらの専用サーバ PHY」というサービスも提供開始しました。さらに、2021年には2016年に提供開始したさくらの専用サーバ高火力のGPUサーバを仮想化し、さくらのクラウドに載せる「さくらク

dann 2024/09/29

リンク

Data Center Best Practices with DGX B200

dann 2024/07/23

リンク

CUTLASS Tutorial: Mastering the NVIDIA® Tensor Memory Accelerator (TMA)

dann 2024/06/25

リンク

GitHub - NVIDIA/cuda-samples: Samples for CUDA Developers which demonstrates features in CUDA Toolkit

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

dann 2024/06/25

リンク

nemotron-4-340b-instruct Model by NVIDIA | NVIDIA NIM

dann 2024/06/19

gpu
llm

リンク

Lambda GPU Cloud | Frequently Asked Questions (FAQ)

dann 2024/06/03

lambda
gpu

リンク

Nvidia-smi

dann 2024/04/24

gpu
nvidia

リンク

Meta、自社開発AIチップ「MTIA」の第2世代を発表　先代の3倍性能

米Metaは4月10日（現地時間）、AIトレーニング高速化のためのカスタムチップ「MTIA」（Meta Training and Inference Accelerator）の第2世代を発表した。昨年5月に発表したMTIAは、MetaのFacebookやInstagramでのランキングおよび広告レコメンデーション機能などで最適に動作するよう設計されている。AIのトレーニングを効率化し、推論を容易にするのが目的だ。第2世代のMTIAは、先代のコンピューティング帯域幅とメモリ帯域幅を2倍以上に拡張し、「ユーザーに高品質の推奨を提供するランキングと推奨モデルを効率的に提供するよう設計されている」という。初期のテスト結果では、4つの主要モデルで先代と比較して性能が3倍向上した。一般的なGPUより大容量のSRAMを使うことでバッチサイズが制限されていても十分なコンピューティングを提供できる。

dann 2024/04/12

リンク

AMD、生成AIでNVIDIA H100を上回る性能のGPU「Instinct MI300」

dann 2024/04/12

amd
gpu

リンク

nvidia-blackwell-architecture-technical-brief.pdf

dann 2024/03/20

リンク

NVIDIA A100/H100 のL2 Cacheについて、再度調べた - Vengineerの妄想

はじめに NVIDIA A100にて、L2 Cacheの構成が変わったことは、下記のブログで書きました。 vengineer.hatena blog.com 今回は、L2 Cache のサイズが、P100の4MB、V100の6MBから A100 では 40MB (48MB)、H100 では 50MB (60MB) になって、その利用について調べてみました。 NVIDIA GA100 の L2 Cache A100 の L2 Cache は、40MB (GA100では 48MB ですが、A100 としては 40MB しか使えません) と、V100 の 6MB から大きく増えました。前回のブログで書いたように、GA100 の L2 Cacheは2つのブロックに分割され、各ブロックは 20MB。20MB は、512KB x 40 個という構成になっています。 GA100は、6個のHBM2e が

dann 2024/02/09

nvidia
gpu

リンク

https://mpls.jp/2023/presentations/mpls2023-yuyarin.pdf

dann 2024/01/17

gpu
network

リンク

「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。ノイズ除去をバッチ処理で高速化「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス（CFG）に代わり、残差分類器フリーガイダンス（RCFG

dann 2023/12/22

ai
gpu

リンク

Fireworks - Fastest Inference for Generative AI

Faster, more efficient DeepSeek on the Fireworks AI Developer CloudDiscover how Fireworks AI Developer Cloud accelerates AI innovation with faster, optimized DeepSeek R1 deployments. Learn about new GPU options, improved speed, and enhanced developer tools for efficient, scala ble AI solutions.

dann 2023/12/02

リンク

A Look at the Liquid Cooled Supermicro SYS-821GE-TNHR 8x NVIDIA H100 AI Server

dann 2023/11/02

リンク

DGX H100は何が変わったのか？ | HPCシステムズ Tech Blog

上記の表の「ケージ数」とは、背面にあるcluster network用の通信ポートの口数を表しています。 DGX H100で採用されたtwin port OSFPは、筐体内部で2つのConnectX-7(400Gbps)に接続する構造となっており、１つのトランシーバに２本のケーブルを挿して運用します。そのため、ポート数はケージ数の2倍となります。twin port OSFPを採用したことで、DGX A100ではサーバー背面の約半分を占めていたcluster network部分が、DGX H100ではサーバー背面の中心部分に収まるようになりました。しばしば、「1つのOSFPトランシーバを使って800Gbpsで通信できる」という記述がされますが、これは単に通信帯域を足し合わせた数値に過ぎず、DGXサーバー間のGPU通信が800Gbpsで行えるという意味ではありませんので注意してください。 c