GPUクラスターによる分散学習基盤を支える“ロスレス”ネットワークをイーサネットで構築・運用するには、どんな技術と仕組みが必要なのか。先駆者であるサイバーエージェントの実践例から探る。 GPU間通信に専用リンク 「1つのネットワークで複数の要件を満たすことは、もう難しい。ストレージ用、インターネットとの通信用、そしてGPU同士のインターコネクト用と、用途別にネットワークを分けて作らなければならなくなったことが今までとの違いだ。しかも、その種類はどんどん増えていく」 2023年春に日本で初めてNVIDIA DGX H100を導入し、社内向けの生成AI基盤「ML Platform」を構築したサイバーエージェント。同基盤のネットワーク構築・運用を担うCIU Platform Div ネットワークリーダーの内田泰広氏は、データセンター(DC)ネットワークの変化についてそう語る。 (左から)サイバー