NVIDIA переопределяет суперкомпьютинг на базе ИИ: Grace Blackwell DGX SuperPOD достигает границы в триллион параметров

Новая эра инфраструктуры генеративного ИИ

NVIDIA представила кардинальные изменения в инфраструктуре ИИ с запуском своей платформы DGX SuperPOD на базе Grace Blackwell Superchips. Эта платформа следующего поколения решает самую сложную задачу, стоящую перед развитием ИИ сегодня: как эффективно обрабатывать и развертывать модели с триллионами параметров в производственных масштабах с минимальными перебоями.

Масштаб поражает. Одна конфигурация DGX SuperPOD может объединить 576 GPU Blackwell в единую вычислительную среду, обеспечивая 11.5 экзофлопс ИИ-производительности при точности FP4 и сохраняя 240 терабайт быстрой памяти. Это решительный скачок в возможностях — до 30-кратного ускорения вывода для больших языковых моделей по сравнению с предыдущим поколением H100 от NVIDIA.

Архитектура, которая задает будущее ИИ

Что отличает эту инновацию NVIDIA, так это не только высокая производительность, но и архитектурная элегантность. Каждая система DGX GB200 сочетает 36 GPU Blackwell с 36 CPU Grace, соединенных через технологию NVLink пятого поколения. В результате получается дизайн уровня стойки, решающий проблему пропускной способности, которая мешала предыдущим поколениям суперкомпьютеров.

Новая DGX SuperPOD достигает 1 800 гигабайт в секунду пропускной способности на GPU — реализуемой через объединенную вычислительную сеть, которая интегрирует NVIDIA BlueField-3 DPU и будущую сеть Quantum-X800 InfiniBand. Возможность In-Network Computing обеспечивает 14.4 терафлопс распределенной обработки, что в 4 раза превышает показатели предыдущего поколения DGX SuperPOD.

Это жидкостное охлаждение, заводская сборка, оптимизированная для развертывания в дата-центрах. Каждый DGX SuperPOD поставляется полностью собранным, подключенным и протестированным — что сокращает сроки внедрения ИИ-инфраструктуры с месяцев до недель.

Доступность и надежность как конкурентное преимущество

NVIDIA встроила в этот DGX SuperPOD интеллектуальные функции, которых нет у обычных суперкомпьютеров. Платформа постоянно отслеживает тысячи параметров аппаратного и программного обеспечения одновременно, используя предиктивные алгоритмы для выявления и предотвращения сбоев до их возникновения.

Если система обнаружит ухудшение состояния компонентов, она автоматически активирует резервные мощности для поддержания работы нагрузок. Плановое обслуживание можно проводить в периоды вычислений, а прерванные задания — автоматически возобновлять, без вмешательства человека. Для команд, обучающих модели с триллионами параметров, эта предиктивная управляемость напрямую означает экономию затрат и ускорение выхода на рынок.

Масштабирование за пределы одного стойки

Модульная архитектура NVIDIA DGX SuperPOD масштабируется по горизонтали. Восемь систем, соединенных через Quantum InfiniBand, создают общие области памяти для сотен GPU. Такой подход позволяет предприятиям и исследовательским институтам создавать центры ИИ-экспертизы, обслуживающие крупные команды разработчиков, работающих с параллельными нагрузками одновременно.

NVIDIA также представила систему DGX B200 для организаций, которым необходимы воздушное охлаждение и традиционные стойки. Каждая содержит восемь GPU Blackwell в паре с процессорами Intel Xeon пятого поколения, обеспечивая 144 петфлопс ИИ-производительности и 1.4ТБ памяти GPU — что позволяет в 15 раз быстрее выполнять вывод в реальном времени для приложений с триллионами параметров.

Программное обеспечение и экспертиза как замкнутый цикл

Только аппаратного обеспечения недостаточно для успеха в производственном ИИ. NVIDIA сочетает каждую систему DGX SuperPOD со своим программным стеком AI Enterprise, который включает предобученные базовые модели, платформы для разработки и новую архитектуру микросервисов NIM для упрощенного развертывания.

Сертифицированные эксперты NVIDIA и авторизованные партнеры поддерживают клиентов от начального внедрения до этапов оптимизации, обеспечивая превращение возможностей в реальную бизнес-ценность. Такой комплексный подход помогает устранить разрыв в экспертизе, с которым сталкиваются многие организации при масштабном развертывании суперкомпьютерных инфраструктур.

Что это значит для развития ИИ

Основатель и CEO NVIDIA Jensen Huang ясно выразил важность: «Суперкомпьютеры NVIDIA DGX AI — это фабрики индустриальной революции ИИ». DGX SuperPOD на базе Grace Blackwell расширяет эту концепцию — демократизируя доступ к обучению и выводу моделей с триллионами параметров на уровне инфраструктуры.

Доступность как для DGX SuperPOD с системами DGX GB200, так и для платформы DGX B200 ожидается в течение 2024 года через глобальную партнерскую сеть NVIDIA, что позиционирует это поколение суперкомпьютеров как основу следующей волны развития генеративного ИИ во всех отраслях.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить