NVIDIA 重新定義 AI 超級運算:Grace Blackwell DGX SuperPOD 突破兆參數前沿

生成式AI基礎設施的新時代

NVIDIA推出了以Grace Blackwell Superchips為動力的DGX SuperPOD,帶來AI基礎設施的根本性轉變。這個下一代平台解決了當前AI開發面臨的最艱巨挑戰:如何在最小中斷的情況下,高效處理並部署萬億參數模型以達到生產規模。

規模令人震驚。一個單一的DGX SuperPOD配置可以整合576個Blackwell GPU,形成一個統一的計算環境,在FP4精度下提供11.5艾帕弗洛(exaflops)的AI性能,同時維持240TB的高速記憶體。這代表能力的決定性提升——相比NVIDIA之前的H100世代,對大型語言模型的推理性能提升高達30倍。

驅動未來AI的架構

這款NVIDIA創新之所以與眾不同,不僅在於其原始性能,更在於架構的優雅。每個DGX GB200系統結合36個Blackwell GPU與36個Grace CPU,通過第五代NVLink技術相連。結果是一個機架級設計,解決了前一代超級電腦所困擾的帶寬瓶頸。

新的DGX SuperPOD實現每GPU每秒1800GB的帶寬——通過一個整合了NVIDIA BlueField-3 DPU和即將推出的Quantum-X800 InfiniBand網路的統一計算結構來達成。In-Network Computing能力提供14.4兆次浮點運算(teraflops),較上一代DGX SuperPOD提升4倍。

這是液冷、工廠製造的工程設計,專為資料中心部署優化。每個DGX SuperPOD都已完全組裝、佈線並測試完畢——將AI基礎設施的建設時間從數月縮短到數週。

運行時間作為競爭優勢

NVIDIA在這款DGX SuperPOD中融入了傳統超級電腦所缺乏的智慧。該平台能持續監控數千個硬體和軟體參數,利用預測算法在故障發生前識別並預防問題。

若系統檢測到部件性能下降,會自動啟動備用容量以保持工作負載運行。例行維護可安排在計算空檔期間,中斷的任務也能自動恢復——全部無需人工干預。對於運行萬億參數模型訓練的團隊來說,這種預測管理能力直接轉化為成本節省和上市時間的加快。

超越單一機架的擴展

NVIDIA的模組化DGX SuperPOD架構可以水平擴展。通過Quantum InfiniBand連接的八個系統,建立跨越數百GPU的共享記憶空間。這種方式讓企業和研究機構能建立AI卓越中心,服務於同時運行多個平行工作負載的龐大開發團隊。

NVIDIA還推出了DGX B200系統,專為需要空冷、傳統機架式配置的組織設計。每台配備8個Blackwell GPU,搭配第五代Intel Xeon處理器,提供144 petaflops的AI性能和1.4TB的GPU記憶體——實現萬億參數應用的實時推理速度快15倍。

軟體與專業知識閉環

僅有硬體並不能保證生產AI的成功。NVIDIA為每個DGX SuperPOD配備了AI Enterprise軟體堆疊,包括預訓練的基礎模型、開發框架,以及用於流暢部署的NIM微服務架構。

經過認證的NVIDIA專家和授權合作夥伴,從初始部署到優化階段提供支援,確保能力能轉化為實際商業價值。這種端到端的方法解決了許多組織在大規模部署超級電腦基礎設施時面臨的專業知識缺口。

這對AI開發意味著什麼

NVIDIA的創始人兼CEO黃仁勳直截了當地表達了其意義:「NVIDIA DGX AI超級電腦是AI工業革命的工廠。」由Grace Blackwell驅動的DGX SuperPOD延續了這一願景——在基礎設施層面推廣萬億參數模型的訓練與推理。

預計2024年,通過NVIDIA的全球合作夥伴網絡,將推出配備DGX GB200系統的DGX SuperPOD和DGX B200平台,為各行各業的下一波生成式AI進步奠定基礎。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)