NVIDIAがAIスーパーコンピューティングを再定義:Grace Blackwell DGX SuperPODが兆パラメータのフロンティアに到達

新時代の生成AIインフラストラクチャ

NVIDIAは、Grace Blackwell Superchipsを搭載したDGX SuperPODの発売により、AIインフラストラクチャにおける根本的な変革をもたらしました。この次世代プラットフォームは、今日のAI開発が直面する最も厳しい課題—最小限の中断で兆パラメータモデルを効率的に処理・展開する方法—に対応しています。

その規模は驚異的です。単一のDGX SuperPOD構成は、576台のBlackwell GPUを統合した統一されたコンピューティング環境を実現し、FP4精度で11.5エクサフロップスのAIパフォーマンスを提供しつつ、240テラバイトの高速メモリを維持します。これは、NVIDIAの以前のH100世代と比較して、大規模言語モデルの推論性能を最大30倍高速化するなど、能力の決定的な向上を示しています。

未来のAIを支えるアーキテクチャ

このNVIDIAの革新を特徴付けるのは、単なる性能だけでなく、アーキテクチャの洗練さです。各DGX GB200システムは、36台のBlackwell GPUと36台のGrace CPUを組み合わせ、第五世代NVLink技術を介して接続しています。その結果、ラック規模の設計となり、従来のスーパーコンピュータが抱える帯域幅のボトルネックを解消しています。

新しいDGX SuperPODは、GPUあたり1,800ギガバイト/秒の帯域幅を実現しています。これは、NVIDIA BlueField-3 DPUと次世代のQuantum-X800 InfiniBandネットワークを統合した統一コンピュートファブリックによるものです。In-Network Computing機能は、14.4テラフロップスの分散処理能力を提供し、前世代のDGX SuperPODと比べて4倍の性能向上を達成しています。

これは液冷式の工場出荷済みエンジニアリングで、データセンター展開に最適化されています。すべてのDGX SuperPODは、完全に組み立てられ、ケーブル接続され、テスト済みで出荷されるため、AIインフラの構築期間は数ヶ月から数週間に短縮されます。

稼働時間を競争優位に

NVIDIAは、このDGX SuperPODに従来のスーパーコンピュータにはない知能を組み込んでいます。プラットフォームは、数千のハードウェアおよびソフトウェアパラメータを常時監視し、予測アルゴリズムを用いて故障を未然に防ぎます。

システムが劣化したコンポーネントを検知すると、自動的に待機容量を起動し、作業負荷を維持します。定期メンテナンスは計算ウィンドウに合わせてスケジュールでき、中断されたジョブも自動的に再開されます—人間の介入は一切不要です。兆パラメータモデルのトレーニングを行うチームにとって、この予測管理機能はコスト削減と市場投入までの時間短縮に直結します。

シングルラックを超えたスケーリング

モジュール式のNVIDIA DGX SuperPODアーキテクチャは、水平にスケールします。Quantum InfiniBandを介して接続された8台のシステムは、数百のGPU間で共有メモリ空間を作り出します。このアプローチにより、企業や研究機関は、大規模な開発者チームが並列ワークロードを同時に実行できるAIセンターの構築が可能になります。

NVIDIAはまた、空冷式の従来型ラックマウント構成を必要とする組織向けに、DGX B200システムも導入しました。各システムには8台のBlackwell GPUと第5世代Intel Xeonプロセッサが搭載され、144ペタフロップスのAI性能と1.4TBのGPUメモリを実現—兆パラメータアプリケーションのリアルタイム推論を15倍高速化します。

ソフトウェアと専門知識がループを閉じる

ハードウェアだけでは、実運用のAI成功は保証されません。NVIDIAは、すべてのDGX SuperPODに対して、事前学習済みの基盤モデル、開発フレームワーク、そして新しいNIMマイクロサービスアーキテクチャを含むAI Enterpriseソフトウェアスタックを提供しています。

認定されたNVIDIAのエキスパートや認定パートナーが、導入初期から最適化段階までサポートし、能力を実際のビジネス価値に変換します。このエンドツーエンドのアプローチは、多くの組織が大規模なスーパーコンピューティングインフラを展開する際に直面する専門知識のギャップを埋めます。

AI開発にとっての意味

NVIDIAの創業者兼CEOの黄仁勲(ジェンセン・黄)は、その意義を次のように述べています:「NVIDIA DGX AIスーパーコンピュータは、AI産業革命の工場です。」Grace Blackwellを搭載したDGX SuperPODは、そのビジョンを拡大し、インフラレベルで兆パラメータモデルのトレーニングと推論へのアクセスを民主化します。

DGX SuperPODとDGX GB200システム、そしてDGX B200プラットフォームの提供は、2024年を通じてNVIDIAのグローバルパートナーネットワークを通じて展開される予定であり、次世代の生成AIの進展の基盤となるこのAIスーパーコンピュータの世代を位置付けています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン