NVIDIA、xAI によって構築された世界最大の AI スーパーコンピューターをイーサネット ネットワーキングで高速化
NVIDIA Spectrum-X により、巨大な NVIDIA Hopper 100,000-GPU システムを実現
NVIDIA は本日、テネシー州メンフィスに設置された、10 万基の NVIDIA Hopper GPU で構成される xAI の Colossus スーパーコンピューター クラスターが、NVIDIA Spectrum-X(TM) イーサネット ネットワーキング プラットフォームを使用して、この膨大な規模を達成したことを発表しました。このプラットフォームは、標準ベースのイーサネットを使用しながら、リモート ダイレクト メモリ アクセス (RDMA) ネットワークを実現し、マルチテナントのハイパースケール AI ファクトリーに優れたパフォーマンスを提供するように設計されています。
世界最大の AI スーパーコンピューターである Colossus は、X Premium 加入者向けの機能としてチャットボットを提供している xAI の大規模言語モデルである Grok ファミリーのトレーニングに使用されています。xAI は、Colossus の規模を倍増させ、合計 20 万基の NVIDIA Hopper GPU に増強する作業を進めています。
関連施設と最先端のスーパーコンピューターは、xAI と NVIDIA によってわずか 122 日で構築されました。通常、この規模のシステムの構築には数か月から数年はかかりますが、最初のラックを設置してからトレーニングを開始するまでに要した期間は 19 日でした。
Colossus は、超大規模な Grok モデルのトレーニング中に、前例のないネットワーク パフォーマンスを達成しています。フロー衝突によるアプリケーション遅延やパケット損失は、3 階層のネットワーク ファブリック全体にわたって一切発生しておらず、Spectrum-X の輻輳制御により 95% のデータ スループットを維持しています。
標準的なイーサネットの場合、データ スループットは 60% しか提供できず、フロー衝突が何千回も発生するため、このレベルのパフォーマンスを大規模に達成することはできません。
NVIDIA のネットワーキング担当シニア バイス プレジデントであるギラッド シャイナー (Gilad Shainer) は、次のように述べています。「AI はミッション クリティカルなものになりつつあり、パフォーマンス、セキュリティ、スケーラビリティ、コスト効率の向上が求められています。NVIDIA Spectrum-X イーサネット ネットワーキング プラットフォームは、xAI のようなイノベーターの AI ワークロードの処理、分析、実行を高速化し、AI ソリューションの開発、展開、市場投入にかかる時間を短縮するように設計されています」
Elon Musk 氏は、X への投稿の中で、「Colossus は世界で最も強力なトレーニング システムです。xAI チーム、NVIDIA、そして多くのパートナーやサプライヤーによる素晴らしい仕事です」と語っています。
xAI の広報担当者は次のように述べています。「xAI は、世界で最も大規模かつ強力なスーパーコンピューターを構築しました。NVIDIA の Hopper GPU と Spectrum-X により、イーサネット標準をベースに超高速で最適化された AI ファクトリーを構築し、AI モデルのトレーニングの限界を大幅に押し上げることが可能になりました」
Spectrum-X プラットフォームの中核をなしているのは、Spectrum-4 スイッチ ASIC をベースとし、最大 800Gb/s のポート速度に対応した Spectrum SN5600 イーサネット スイッチです。xAI は、前例のないパフォーマンスを実現するために、Spectrum-X SN5600 スイッチに NVIDIA BlueField-3(R) SuperNIC を組み合わせました。
AI 向け Spectrum-X イーサネット ネットワーキングは、従来は InfiniBand でしか得られなかった低レイテンシとテール レイテンシを持つ非常に効果的でスケーラブルな帯域幅を実現する先進的な機能を提供します。これらの機能としては、NVIDIA Direct Data Placement テクノロジによるアダプティブ ルーティングや輻輳制御のほか、AI ファブリックの可視性とパフォーマンスの分離の向上も挙げられ、いずれもマルチテナント生成 AI クラウドや大規模エンタープライズ環境の重要な要件です。
NVIDIA について
1993 年の創業以来、NVIDIA(https://www.nvidia.com/ja-jp/) (NASDAQ: NVDA) はアクセラレーテッド コンピューティングのパイオニアです。同社が 1999 年に発明した GPU は、PC ゲーム市場の成長を促進し、コンピューター グラフィックスを再定義して、現代の AI の時代に火をつけながら、各種産業のデジタル化を後押ししています。NVIDIA は現在、業界を再形成しているデータセンター規模の製品を提供するフルスタック コンピューティング企業です。詳細は、こちらのリンクから:https://nvidianews.nvidia.com/
NVIDIA Hopper GPU、NVIDIA Spectrum-X イーサネット ネットワーキング プラットフォーム、NVIDIA Spectrum SN5600 イーサネットスイッチ、Spectrum-4 スイッチ ASIC、NVIDIA Bluefield-3 SuperNIC を含む NVIDIAの製品、サービスおよびテクノロジの利点、影響、パフォーマンス、xAI の Colossus スーパーコンピューター クラスターの機能、xAI が Colossus の規模を 2 倍に拡大し、NVIDIA Hopper GPU を合計 20 万基まで増強する作業を進めていること、NVIDIA Spectrum-X イーサネット ネットワーキング プラットフォームが、xAI のようなイノベーターの AI ワークロードの処理、分析、実行を高速化し、AI ソリューションの開発、展開、市場投入にかかる時間を短縮するように設計されていること、NVIDIA の Hopper GPU と Spectrum-X により、イーサネット規格をベースに超高速で最適化された AI ファクトリーを構築し、AI モデルのトレーニングの限界を大幅に押し上げることが可能になっていることなどは (ただし、これらに限定されません)、本プレス リリースに記載されている記述の中には、将来予測的なものが含まれており、予測とは著しく異なる結果を生ずる可能性があるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、NVIDIA 製品や協業企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザーの嗜好および需要の変化、業界標準やインターフェイスの変更、システム統合時に NVIDIA 製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関しては、Form 10-K での NVIDIA のアニュアル レポートならびに Form 10-Q での四半期レポートなど、米証券取引委員会 (SEC) に提出されている NVIDIA の報告書に適宜記載されます。SEC への提出書類は写しが NVIDIA の Web サイトに掲載されており、NVIDIA から無償で入手することができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある 場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務を NVIDIA は一切負いません。
(C) 2024 NVIDIA Corporation. All rights reserved. NVIDIA、NVIDIAロゴ、NVIDIA Spectrum-X、およびBlueFieldは米国およびその他の国におけるNVIDIA Corporationの商標および/または登録商標です。その他の企業名および製品名は、関連する各社の商標である可能性があります。機能、価格、入手可能性および仕様は、予告なく変更される場合があります。