NVIDIA ha introducido un cambio fundamental en la infraestructura de IA con el lanzamiento de su DGX SuperPOD impulsado por Grace Blackwell Superchips. Esta plataforma de próxima generación aborda el desafío más exigente que enfrenta el desarrollo de IA hoy en día: cómo procesar y desplegar de manera eficiente modelos de billones de parámetros a escala de producción con una interrupción mínima.
La escala es asombrosa. Una sola configuración de DGX SuperPOD puede integrar 576 GPUs Blackwell en un entorno de computación unificado, ofreciendo 11.5 exaflops de rendimiento de IA en precisión FP4 mientras mantiene 240 terabytes de memoria rápida. Esto representa un salto decisivo en capacidad—hasta 30x más rápido en inferencia para modelos de lenguaje grande en comparación con la generación H100 anterior de NVIDIA.
La Arquitectura que Impulsa la IA del Mañana
Lo que distingue esta innovación de NVIDIA no es solo el rendimiento bruto, sino la elegancia arquitectónica. Cada sistema DGX GB200 combina 36 GPUs Blackwell con 36 CPUs Grace, conectados mediante tecnología NVLink de quinta generación. El resultado es un diseño a escala de rack que resuelve el cuello de botella de ancho de banda que aquejaba a los supercomputadores de generación anterior.
El nuevo DGX SuperPOD logra 1,800 gigabytes por segundo de ancho de banda por GPU—logrado mediante una red de cómputo unificada que integra NVIDIA BlueField-3 DPUs y la próxima red Quantum-X800 InfiniBand. La capacidad de In-Network Computing entrega 14.4 teraflops de procesamiento distribuido, una mejora de 4x respecto a la generación anterior de DGX SuperPOD.
Este sistema está refrigerado por líquido, es de fábrica y está optimizado para despliegue en centros de datos. Cada DGX SuperPOD se envía completamente ensamblado, cableado y probado—transformando la construcción de infraestructura de IA de meses a semanas.
Tiempo de Actividad como Ventaja Competitiva
NVIDIA incorporó inteligencia en este DGX SuperPOD que los supercomputadores convencionales no poseen. La plataforma monitorea continuamente miles de parámetros de hardware y software simultáneamente, usando algoritmos predictivos para identificar y prevenir fallos antes de que ocurran.
Si el sistema detecta componentes en deterioro, activa automáticamente capacidad de reserva para mantener las cargas de trabajo en marcha. El mantenimiento rutinario puede programarse en torno a ventanas de computación, y los trabajos interrumpidos se reanudan automáticamente—todo sin intervención humana. Para los equipos que entrenan modelos de billones de parámetros, esta capacidad de gestión predictiva se traduce directamente en ahorro de costos y aceleración en el tiempo de lanzamiento al mercado.
Escalando Más Allá de un Solo Rack
La arquitectura modular de NVIDIA DGX SuperPOD escala horizontalmente. Ocho sistemas conectados mediante Quantum InfiniBand crean espacios de memoria compartida a través de cientos de GPUs. Este enfoque permite a empresas e instituciones de investigación construir centros de excelencia en IA que sirvan a grandes equipos de desarrolladores ejecutando cargas de trabajo paralelas simultáneamente.
NVIDIA también presentó el sistema DGX B200 para organizaciones que requieren configuraciones tradicionales en rack con refrigeración por aire. Cada uno contiene ocho GPUs Blackwell emparejadas con procesadores Intel Xeon de quinta generación, ofreciendo 144 petaflops de rendimiento de IA y 1.4TB de memoria GPU—permitiendo una inferencia en tiempo real 15x más rápida para aplicaciones de billones de parámetros.
El Software y la Experiencia Cierran el Ciclo
Solo el hardware no garantiza el éxito en producción de IA. NVIDIA combina cada DGX SuperPOD con su pila de software AI Enterprise, que incluye modelos de base preentrenados, marcos de desarrollo y la nueva arquitectura de microservicios NIM para una implementación optimizada.
Expertos certificados de NVIDIA y socios autorizados apoyan a los clientes desde la implementación inicial hasta las fases de optimización, asegurando que las capacidades se traduzcan en valor comercial real. Este enfoque de extremo a extremo aborda la brecha de experiencia que enfrentan muchas organizaciones al desplegar infraestructura de supercomputación a gran escala.
Qué Significa Esto para el Desarrollo de IA
Jensen Huang, fundador y CEO de NVIDIA, enmarcó la importancia de manera sencilla: “Las supercomputadoras de IA DGX de NVIDIA son las fábricas de la revolución industrial de la IA.” La DGX SuperPOD impulsada por Grace Blackwell extiende esa visión—democratizando el acceso a entrenamiento e inferencia de modelos de billones de parámetros a nivel de infraestructura.
Se espera que la disponibilidad tanto de la DGX SuperPOD con sistemas DGX GB200 como de la plataforma DGX B200 esté a lo largo de 2024 a través de la red global de socios de NVIDIA, posicionando a esta generación de supercomputación de IA como la base para la próxima ola de avances en IA generativa en todas las industrias.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
NVIDIA redefine la supercomputación de IA: Grace Blackwell DGX SuperPOD alcanza la frontera de billones de parámetros
Una Nueva Era de Infraestructura de IA Generativa
NVIDIA ha introducido un cambio fundamental en la infraestructura de IA con el lanzamiento de su DGX SuperPOD impulsado por Grace Blackwell Superchips. Esta plataforma de próxima generación aborda el desafío más exigente que enfrenta el desarrollo de IA hoy en día: cómo procesar y desplegar de manera eficiente modelos de billones de parámetros a escala de producción con una interrupción mínima.
La escala es asombrosa. Una sola configuración de DGX SuperPOD puede integrar 576 GPUs Blackwell en un entorno de computación unificado, ofreciendo 11.5 exaflops de rendimiento de IA en precisión FP4 mientras mantiene 240 terabytes de memoria rápida. Esto representa un salto decisivo en capacidad—hasta 30x más rápido en inferencia para modelos de lenguaje grande en comparación con la generación H100 anterior de NVIDIA.
La Arquitectura que Impulsa la IA del Mañana
Lo que distingue esta innovación de NVIDIA no es solo el rendimiento bruto, sino la elegancia arquitectónica. Cada sistema DGX GB200 combina 36 GPUs Blackwell con 36 CPUs Grace, conectados mediante tecnología NVLink de quinta generación. El resultado es un diseño a escala de rack que resuelve el cuello de botella de ancho de banda que aquejaba a los supercomputadores de generación anterior.
El nuevo DGX SuperPOD logra 1,800 gigabytes por segundo de ancho de banda por GPU—logrado mediante una red de cómputo unificada que integra NVIDIA BlueField-3 DPUs y la próxima red Quantum-X800 InfiniBand. La capacidad de In-Network Computing entrega 14.4 teraflops de procesamiento distribuido, una mejora de 4x respecto a la generación anterior de DGX SuperPOD.
Este sistema está refrigerado por líquido, es de fábrica y está optimizado para despliegue en centros de datos. Cada DGX SuperPOD se envía completamente ensamblado, cableado y probado—transformando la construcción de infraestructura de IA de meses a semanas.
Tiempo de Actividad como Ventaja Competitiva
NVIDIA incorporó inteligencia en este DGX SuperPOD que los supercomputadores convencionales no poseen. La plataforma monitorea continuamente miles de parámetros de hardware y software simultáneamente, usando algoritmos predictivos para identificar y prevenir fallos antes de que ocurran.
Si el sistema detecta componentes en deterioro, activa automáticamente capacidad de reserva para mantener las cargas de trabajo en marcha. El mantenimiento rutinario puede programarse en torno a ventanas de computación, y los trabajos interrumpidos se reanudan automáticamente—todo sin intervención humana. Para los equipos que entrenan modelos de billones de parámetros, esta capacidad de gestión predictiva se traduce directamente en ahorro de costos y aceleración en el tiempo de lanzamiento al mercado.
Escalando Más Allá de un Solo Rack
La arquitectura modular de NVIDIA DGX SuperPOD escala horizontalmente. Ocho sistemas conectados mediante Quantum InfiniBand crean espacios de memoria compartida a través de cientos de GPUs. Este enfoque permite a empresas e instituciones de investigación construir centros de excelencia en IA que sirvan a grandes equipos de desarrolladores ejecutando cargas de trabajo paralelas simultáneamente.
NVIDIA también presentó el sistema DGX B200 para organizaciones que requieren configuraciones tradicionales en rack con refrigeración por aire. Cada uno contiene ocho GPUs Blackwell emparejadas con procesadores Intel Xeon de quinta generación, ofreciendo 144 petaflops de rendimiento de IA y 1.4TB de memoria GPU—permitiendo una inferencia en tiempo real 15x más rápida para aplicaciones de billones de parámetros.
El Software y la Experiencia Cierran el Ciclo
Solo el hardware no garantiza el éxito en producción de IA. NVIDIA combina cada DGX SuperPOD con su pila de software AI Enterprise, que incluye modelos de base preentrenados, marcos de desarrollo y la nueva arquitectura de microservicios NIM para una implementación optimizada.
Expertos certificados de NVIDIA y socios autorizados apoyan a los clientes desde la implementación inicial hasta las fases de optimización, asegurando que las capacidades se traduzcan en valor comercial real. Este enfoque de extremo a extremo aborda la brecha de experiencia que enfrentan muchas organizaciones al desplegar infraestructura de supercomputación a gran escala.
Qué Significa Esto para el Desarrollo de IA
Jensen Huang, fundador y CEO de NVIDIA, enmarcó la importancia de manera sencilla: “Las supercomputadoras de IA DGX de NVIDIA son las fábricas de la revolución industrial de la IA.” La DGX SuperPOD impulsada por Grace Blackwell extiende esa visión—democratizando el acceso a entrenamiento e inferencia de modelos de billones de parámetros a nivel de infraestructura.
Se espera que la disponibilidad tanto de la DGX SuperPOD con sistemas DGX GB200 como de la plataforma DGX B200 esté a lo largo de 2024 a través de la red global de socios de NVIDIA, posicionando a esta generación de supercomputación de IA como la base para la próxima ola de avances en IA generativa en todas las industrias.