NVIDIA Переформатовує Штучний Інтелект у суперкомп’ютингу: Grace Blackwell DGX SuperPOD досягає межі трильйонних параметрів

2025-12-31 09:39:00

Нова ера генеративної інфраструктури AI

NVIDIA представила фундаментальні зміни в інфраструктурі AI із запуском DGX SuperPOD, оснащеного Grace Blackwell Superchips. Ця платформа наступного покоління вирішує найскладніше завдання сучасної розробки AI: як ефективно обробляти та розгортати моделі з трильйонами параметрів у виробничих масштабах з мінімальними перервами.

Масштаб вражає. Одна конфігурація DGX SuperPOD може інтегрувати 576 GPU Blackwell у єдине обчислювальне середовище, забезпечуючи 11.5 екзафлопс AI-потужності при точності FP4 і зберігаючи 240 терабайт швидкої пам’яті. Це означає рішучий стрибок у можливостях — до 30-кратного швидшого інференсу для великих мовних моделей порівняно з попереднім поколінням H100 від NVIDIA.

Архітектура, що забезпечує завтрашній AI

Що відрізняє цю інновацію NVIDIA — це не лише потужність, а й архітектурна елегантність. Кожна система DGX GB200 поєднує 36 GPU Blackwell з 36 процесорами Grace, з’єднаними через технологію NVLink п’ятого покоління. Результатом є дизайн масштабу стійки, що вирішує проблему пропускної здатності, яка турбувала попередні покоління суперкомп’ютерів.

Новий DGX SuperPOD досягає пропускної здатності 1 800 гігабайт на секунду на GPU — реалізовано через єдину обчислювальну мережу, яка інтегрує NVIDIA BlueField-3 DPU та майбутню мережу Quantum-X800 InfiniBand. Можливість In-Network Computing забезпечує 14.4 трильйонів операцій з плаваючою точкою в секунду, що у 4 рази перевищує показники попереднього покоління DGX SuperPOD.

Це рідинно-охолоджене, заводське обладнання, оптимізоване для розгортання в дата-центрах. Кожен DGX SuperPOD поставляється повністю зібраним, підключеним і протестованим — що зменшує час розгортання інфраструктури з місяців до тижнів.

Надійність як конкурентна перевага

NVIDIA вбудувала інтелект у цей DGX SuperPOD, якого не мають звичайні суперкомп’ютери. Платформа постійно моніторить тисячі апаратних і програмних параметрів одночасно, використовуючи передбачувальні алгоритми для виявлення та запобігання збоїв ще до їх виникнення.

Якщо система виявляє деградацію компонентів, вона автоматично активує резервні ресурси для підтримки роботи навантажень. Планове обслуговування можна проводити під час обчислювальних вікон, а перервані завдання автоматично відновлюються — без людського втручання. Для команд, що тренують моделі з трильйонами параметрів, ця можливість передбачуваного управління безпосередньо перетворюється на економію коштів і прискорення виходу на ринок.

Масштабування понад один стійку

Модульна архітектура NVIDIA DGX SuperPOD масштабується горизонтально. Вісім систем, з’єднаних через Quantum InfiniBand, створюють спільні пам’яті простори для сотень GPU. Такий підхід дозволяє підприємствам і дослідницьким інститутам створювати центри AI високого рівня, що обслуговують великі команди розробників, які одночасно виконують паралельні навантаження.

NVIDIA також представила систему DGX B200 для організацій, які потребують повітряного охолодження та традиційних стійкових конфігурацій. Кожна містить вісім GPU Blackwell у парі з процесорами Intel Xeon п’ятого покоління, забезпечуючи 144 петафлопси AI-потужності та 1.4ТБ GPU-пам’яті — що дозволяє у 15 разів швидше виконувати інференс у реальному часі для застосувань з трильйонами параметрів.

Програмне забезпечення та експертна підтримка закривають коло

Один лише апаратний компонент не гарантує успіху у виробничому AI. NVIDIA поєднує кожен DGX SuperPOD із своїм стеком програмного забезпечення AI Enterprise, який включає попередньо навчені базові моделі, платформи для розробки та нову архітектуру мікросервісів NIM для спрощеного розгортання.

Сертифіковані експерти NVIDIA і авторизовані партнери підтримують клієнтів від початкового розгортання до етапів оптимізації, забезпечуючи перетворення можливостей у реальну бізнес-цінність. Такий комплексний підхід вирішує проблему недостатньої експертної підтримки, з якою стикаються багато організацій при масштабному розгортанні суперкомп’ютерної інфраструктури.

Що це означає для розвитку AI

Засновник і генеральний директор NVIDIA Jensen Huang чітко окреслив значення: «Суперкомп’ютери NVIDIA DGX AI — це фабрики індустріальної революції AI». DGX SuperPOD на базі Grace Blackwell продовжує цю ідею — демократизуючи доступ до тренування та інференсу моделей з трильйонами параметрів на рівні інфраструктури.

Очікується, що доступність як для DGX SuperPOD із системами DGX GB200, так і для платформи DGX B200, буде протягом 2024 року через глобальну мережу партнерів NVIDIA, що закладає основу для наступної хвилі розвитку генеративного AI у різних галузях.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.