並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 13 件 / 13件

新着順 人気順

Infinibandの検索結果1 - 13 件 / 13件

  • サイバーエージェントの「生成AI用ネットワーク」の作り方 イーサネットで分散学習基盤|BUSINESS NETWORK

    GPUクラスターによる分散学習基盤を支える“ロスレス”ネットワークをイーサネットで構築・運用するには、どんな技術と仕組みが必要なのか。先駆者であるサイバーエージェントの実践例から探る。 GPU間通信に専用リンク 「1つのネットワークで複数の要件を満たすことは、もう難しい。ストレージ用、インターネットとの通信用、そしてGPU同士のインターコネクト用と、用途別にネットワークを分けて作らなければならなくなったことが今までとの違いだ。しかも、その種類はどんどん増えていく」 2023年春に日本で初めてNVIDIA DGX H100を導入し、社内向けの生成AI基盤「ML Platform」を構築したサイバーエージェント。同基盤のネットワーク構築・運用を担うCIU Platform Div ネットワークリーダーの内田泰広氏は、データセンター(DC)ネットワークの変化についてそう語る。 (左から)サイバー

      サイバーエージェントの「生成AI用ネットワーク」の作り方 イーサネットで分散学習基盤|BUSINESS NETWORK
    • Metaがいかにして大規模言語モデルをトレーニングしているか、その取組みを大公開

      6月13日、Engineering at Metaで「Metaが大規模言語モデルをトレーニングする方法(How Meta trains large language models at scale)」と題した記事が公開された。この記事では、AIの研究開発において直面している計算規模の大幅な拡大にどのように対処しているかについて詳しく紹介されている。 以下に、その内容を簡潔にまとめて紹介する。 大規模モデルのトレーニングの課題 大規模な言語モデル(LLM)のトレーニングでは、GPUの数が増えるにつれて、ハードウェアの故障による中断の可能性が高まる。これを最適に行うためには、次の4つの要素が重要である。 ハードウェアの信頼性:ハードウェア故障を最小限に抑えるため、厳格なテストと品質管理を行う。 故障時の迅速な復旧:ハードウェア故障が発生した場合、迅速に復旧する必要がある。これには、再スケジュー

        Metaがいかにして大規模言語モデルをトレーニングしているか、その取組みを大公開
      • エヌビディアだけじゃない!インフラからセキュリティまで、過小評価されている4つのAI関連銘柄を紹介

        カリフォルニア州サンタクララにあるエヌビディア本社。2017年8月17日撮影。 Smith Collection/Gado/Getty Images 多くの人はAI分野を、数兆ドル規模の企業が支配する勝者総取りの市場と捉えている。 しかし、「人類史上最大の投資機会」となり得るAI市場では、「マグニフィセント・セブン」以外にも投資の余地があると考える人もいる。TCWグループのポートフォリオ・マネージャーであるエヴァン・フィーガンズ(Evan Feagans)氏は、Business Insiderとの最近のインタビューで、AI分野において見過ごされている4つの銘柄について語った。その中には誰も話題にしていない、エヌビディア(Nvidia)のライバルも含まれている。 AIはエヌビディアの独占市場ではない ビッグテック、特にエヌビディアがAIをめぐる大量の話題を生み出しているため、現在の業界リーダ

          エヌビディアだけじゃない!インフラからセキュリティまで、過小評価されている4つのAI関連銘柄を紹介
        • エヌビディアの目標株価をウォルフ・リサーチがサプライチェーンの好意的な評価を受けて引き上げ 執筆: Investing.com

          Wolfe Researchは月曜日のレポートで、エヌビディア(NVDA)の予想株価を125ドルから150ドルに引き上げ、2025年暦年(CY25)における同社の大きな成長を示唆するサプライチェーンからの好材料を指摘した。 「最近のサプライチェーンの調査から、CY25までにNVDA GPUの使用が50%以上増加することが明らかになった。アナリストらは、この成長はNvidiaの新アーキテクチャBlackwellの採用によるもので、平均販売価格の上昇と製品構成の改善につながると見ている。 Wolfe Researchはまた、CY25のGPU販売台数が50%増加するという予備的な指標を観察し、販売台数の増加を予測している。現在の計算では、この予測には慎重な姿勢で臨んでいるが、更新された数値にさらなる利益をもたらす可能性があると認識している。 分析では、Nvidiaのデータセンター部門が主要な貢献

            エヌビディアの目標株価をウォルフ・リサーチがサプライチェーンの好意的な評価を受けて引き上げ 執筆: Investing.com
          • 800Gトランシーバを徹底解説:種類、アプリケーション、FAQ - siennaxu’s blog

            FSコミュニティで原文を読む より高速なデータ伝送への需要が急増する中、800Gトランシーバは、その高い帯域幅、高速伝送速度、優れたパフォーマンス、高密度、将来的な互換性により、大きな注目を集めています。この記事では、800Gトランシーバを選択する際に、より良い選択ができるように、さまざまな種類の800G光モジュールの概要を説明し、そのアプリケーションについて説明し、いくつかのFAQに対処します。 800Gトランシーバの種類 800G = 8 x 100G = 4 x 200G。したがって、800Gトランシーバは、シングルチャンネルレートに応じて、シングルチャンネル100Gと200Gの2種類に大まかに分類できます。下図は、適合するアーキテクチャを示したものです。シングルチャネル100G光モジュールは比較的短時間で実装できますが、200G光モジュールは光デバイスに対する要求が高く、変換のため

              800Gトランシーバを徹底解説:種類、アプリケーション、FAQ - siennaxu’s blog
            • スーパーコンピュータ - はてな匿名ダイアリー

              Q. 1つのCPUコアでの逐次処理を高速化することには限界があるため、コア数を増やし並列化させることで性能を向上させる必要がある、という考え方について、市販のサーバコンピュータとスーパーコンピュータで違いはありますか? A. この考え方に関して、市販のサーバコンピュータとスーパーコンピュータの間には基本的な違いはありません。両者とも、シングルコアの性能向上に限界がある中で、並列化によって全体的な処理能力を高めるという方向性を共有しています。しかし、その実現方法や規模には大きな違いがあります。 サーバコンピュータとスーパーコンピュータの並列化アプローチの比較 1. 並列化の規模 サーバコンピュータ: 数個から数百個のコアを使用 スーパーコンピュータ: 数万から数百万個のコアを使用 2. 並列化の方法 サーバコンピュータ: 主にSMP(対称型マルチプロセッシング)やNUMA(非一様メモリアクセ

                スーパーコンピュータ - はてな匿名ダイアリー
              • サイバーエージェントの「生成AI用ネットワーク」の作り方 イーサネットで分散学習基盤|BUSINESS NETWORK

                GPUクラスターによる分散学習基盤を支える“ロスレス”ネットワークをイーサネットで構築・運用するには、どんな技術と仕組みが必要なのか。先駆者であるサイバーエージェントの実践例から探る。 GPU間通信に専用リンク 「1つのネットワークで複数の要件を満たすことは、もう難しい。ストレージ用、インターネットとの通信用、そしてGPU同士のインターコネクト用と、用途別にネットワークを分けて作らなければならなくなったことが今までとの違いだ。しかも、その種類はどんどん増えていく」 2023年春に日本で初めてNVIDIA DGX H100を導入し、社内向けの生成AI基盤「ML Platform」を構築したサイバーエージェント。同基盤のネットワーク構築・運用を担うCIU Platform Div ネットワークリーダーの内田泰広氏は、データセンター(DC)ネットワークの変化についてそう語る。 (左から)サイバー

                  サイバーエージェントの「生成AI用ネットワーク」の作り方 イーサネットで分散学習基盤|BUSINESS NETWORK
                • Net Services管理者ガイド

                  ネットワーク・データの圧縮化の利点の理解 セッション・データ・ユニットの構成 帯域幅遅延積の求め方 I/Oバッファ領域の構成 TCP/IPなどの信頼性の高いネットワーク・プロトコルでは、下位および上位のレイヤー・プロトコルとの間でデータの送受信中に、送受信バッファにデータをバッファリングします。これらのバッファのサイズは、フロー制御の決定に影響することで、ネットワーク・パフォーマンスに影響を与えます。 InfiniBand接続をサポートするSDPの構成 InfiniBand接続をサポートするExadirectの構成 Oracle Net Servicesでは、InfiniBand高速ネットワークのためのExadirectをサポートします。インフィニバンド環境では、Remote Direct Memory Access (RDMA)の活用によって待機時間とスループットが向上する新しいトランス

                  • NVIDIAのフルスタックAIプラットフォームがGPT-3 175Bベースのベンチマークで昨年比3倍以上向上 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                    フルスタックのNVIDIAアクセラレーテッドコンピューティングプラットフォームは、最新のMLPerf Training v4.0ベンチマークにおいて、再び卓越した性能を発揮した。 NVIDIAは、GPT-3 175Bに基づく大規模言語モデル(LLM)ベンチマークの性能を、昨年NVIDIAが提出した記録的なものと比較して3倍以上向上させた。NVIDIA Quantum-2 InfiniBandネットワーキングで接続された11,616基のNVIDIA H100 TensorコアGPUを搭載したAIスーパーコンピューターを使用して、NVIDIAは、1年前に提出した3,584基のH100GPUの3倍以上という大規模化と、広範なフルスタックエンジニアリングによって、今回のベンチマーク性能向上を達成した。 NVIDIA AIプラットフォームのスケーラビリティのおかげで、EosはGPT-3 175Bのよ

                      NVIDIAのフルスタックAIプラットフォームがGPT-3 175Bベースのベンチマークで昨年比3倍以上向上 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                    • 産総研、生成AI開発力強化に向け次世代スパコン構築--HPEとNVIDIAが支援

                      印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます ヒューレット・パッカード エンタープライズ(HPE)は7月11日、産業技術総合研究所(産総研)が、NVIDIAで強化された次世代AIスーパーコンピューター「AI橋渡しクラウド(ABCI 3.0)」を構築すると発表した。 HPEとNVIDIAは、同プロジェクトに「NVIDIA H200 Tensor コア GPU」を搭載した「HPE Cray XDシステム」を提供する。同スパコンは、NVIDIA Quantum-2 InfiniBandネットワークで相互接続され、半精度理論最高値約6.2 EFLOPSを達成する見込みだという。 産総研が2018年から提供するABCIクラウドスーパーコンピューティングサービスは、スタートアップから総合電機メ

                        産総研、生成AI開発力強化に向け次世代スパコン構築--HPEとNVIDIAが支援
                      • Intelをも唸らせるTSMCが今後投入する新しい半導体技術(PC Watch) - Yahoo!ニュース

                        TSMCは、6月28日に神奈川県横浜市の横浜ベイホテル東急において「Japan Technology Symposium」という顧客向けのイベントを開催した。これは顧客だけに限定的に行なわれているイベントになるため、報道関係者などには公開されていないが、同日に記者説明会を開催し、イベントの概要を説明した。 【画像】TSMCジャパン株式会社 代表取締役社長 小野寺誠氏 ■ TSMCが日本で躍進 今でこそ、半導体の設計や販売はAMD、Apple、NVIDIA、Qualcommが行ない、製造はTSMCやSamsungといったファウンドリが担当するという水平分業が当たり前になっているが、TSMCが創業した1987年当時は、半導体メーカーが自前で工場を持ち、設計、製造、販売まですべて一社で行なう垂直統合があたり前だった。そこから40年近くが経過し、今ではIntelなどの一部の例外を除き状況が一変、T

                          Intelをも唸らせるTSMCが今後投入する新しい半導体技術(PC Watch) - Yahoo!ニュース
                        • NVIDIA NIM がモデル展開に革命をもたらし、世界中の何百万人もの開発者を生成 AI 開発者に変える

                          主要なコンピューター メーカーが Grace CPU、NVIDIA ネットワーキング、インフラを備えた Blackwell 搭載システムのラインナップを発表 クラウド、オンプレミス、組み込み、エッジ AI システムを含む幅広いポートフォリオ シングル GPU からマルチ GPU、x86 から Grace、空冷から液冷まで、幅広い構成 台湾、台北 — COMPUTEX — 2024 年 6 月 2 日 — NVIDIA と世界トップクラスのコンピューター メーカーは本日、企業が AI ファクトリーやデータセンターを構築し、次世代の 生成 AI ブレイクスルーを推進するための Grace CPU、NVIDIA ネットワーキング、インフラを備えた NVIDIA Blackwell アーキテクチャ搭載システムのラインナップを発表しました。 COMPUTEX 基調講演で、NVIDIA の創業者/CE

                            NVIDIA NIM がモデル展開に革命をもたらし、世界中の何百万人もの開発者を生成 AI 開発者に変える
                          • Intel、業界初のチップ統合光インターコネクトを発表 | XenoSpectrum

                            Intelは、業界初となる“完全に統合”された光学コンピューティング相互接続(Optical Compute Interconnect: OCI)チップレットを、既存のIntel製CPUにコ・パッケージングした物を披露し、AI開発によりますます高まる新たなデータ転送技術開発において、大きな飛躍を遂げる可能性を秘めた画期的な技術の開発に成功した事を報告している。 Intelの新たなOCIは従来のI/O接続を置き換えることを目的としている Intelと言えば半導体・CPUのイメージが強いが、シリコンフォトニクスの研究開発も盛んに行っており、そのレベルは業界最先端の物である。シリコンフォトニクスとは、シリコン集積回路と半導体レーザー等の発光素子を組み合わせることで、従来の電子機器よりも高速かつ長距離のデータ転送を実現する、コンピュータプロセッサ間の通信帯域を拡大する次世代の重要な技術と目されてい

                              Intel、業界初のチップ統合光インターコネクトを発表 | XenoSpectrum
                            1