NVIDIA 重新定义人工智能超级计算:Grace Blackwell DGX SuperPOD 达到万亿参数的前沿

生成式AI基础设施的新时代

英伟达推出了以Grace Blackwell超级芯片驱动的DGX SuperPOD,标志着AI基础设施的根本变革。这一下一代平台解决了当今AI发展面临的最严峻挑战:如何在最小中断的情况下高效处理和部署万亿参数模型,实现生产规模的应用。

规模令人震惊。单一的DGX SuperPOD配置可以集成576个Blackwell GPU,形成统一的计算环境,在FP4精度下提供11.5艾帕秒的AI性能,同时保持240TB的高速内存。这代表了能力的决定性飞跃——相比英伟达之前的H100系列,大型语言模型的推理性能提升最多30倍。

支撑未来AI的架构

这项英伟达创新的不同之处不仅在于其强大的性能,更在于架构的优雅。每个DGX GB200系统结合了36个Blackwell GPU和36个Grace CPU,通过第五代NVLink技术连接。其结果是一种机架级设计,解决了以往超级计算机普遍存在的带宽瓶颈问题。

新的DGX SuperPOD实现了每GPU每秒1800GB的带宽——通过集成英伟达BlueField-3 DPU和即将推出的Quantum-X800 InfiniBand网络的统一计算结构实现。网络内计算能力达14.4万亿次浮点运算,比上一代DGX SuperPOD提升了4倍。

这是一款液冷、工厂制造、为数据中心部署优化的工程产品。每个DGX SuperPOD都已完全组装、布线并经过测试——将AI基础设施的建设周期从数月缩短到数周。

正常运行时间成为竞争优势

英伟达在这款DGX SuperPOD中融入了传统超级计算机所缺乏的智能功能。该平台持续监控数千个硬件和软件参数,利用预测算法在故障发生前识别并预防问题。

如果系统检测到部件性能下降,会自动激活备用容量以保持工作负载运行。例行维护可以安排在计算空闲时间,中断的任务也会自动恢复——无需人工干预。对于运行万亿参数模型训练的团队来说,这种预测管理能力直接带来成本节省和上市时间的加快。

超越单机架的扩展

英伟达的DGX SuperPOD架构具有横向扩展能力。通过Quantum InfiniBand连接的八个系统,共享数百个GPU的内存空间。这种方式使企业和研究机构能够建立AI卓越中心,支持庞大的开发团队同时运行并行工作负载。

英伟达还推出了DGX B200系统,面向需要空气冷却、传统机架式配置的组织。每台设备配备8个Blackwell GPU和第五代英特尔至强处理器,提供144万亿次AI性能和1.4TB GPU内存——实现万亿参数应用的实时推理速度提升15倍。

软件与专业知识闭环

仅有硬件并不能保证生产级AI的成功。英伟达为每个DGX SuperPOD配备了AI Enterprise软件套件,包括预训练的基础模型、开发框架以及用于简化部署的NIM微服务架构。

经过认证的英伟达专家和授权合作伙伴提供从初始部署到优化的全流程支持,确保能力转化为实际的商业价值。这一端到端的方法解决了许多组织在大规模部署超级计算基础设施时面临的专业知识缺口。

这对AI发展的意义

英伟达创始人兼CEO黄仁勋直言不讳地表示:“英伟达的DGX AI超级计算机是AI工业革命的工厂。”由Grace Blackwell驱动的DGX SuperPOD延续了这一愿景——在基础设施层面实现对万亿参数模型训练和推理的普及。

预计2024年,全球合作伙伴网络将提供DGX SuperPOD(配备DGX GB200系统)和DGX B200平台的产品,为行业下一波生成式AI的突破奠定基础。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)