La noticia desde Las Vegas, Zhi Dongxi, 5 de enero, informa que acaba de realizarse la primera conferencia temática de 2026 del CEO y fundador de NVIDIA, Huang Renxun, en la feria internacional de electrónica de consumo CES 2026. Como de costumbre, Huang llevaba una chaqueta de cuero y en 1.5 horas anunció 8 lanzamientos importantes, desde chips y racks hasta diseño de redes, presentando en profundidad toda la plataforma de nueva generación.
En los campos de cálculo acelerado e infraestructura de IA, NVIDIA lanzó la supercomputadora NVIDIA Vera Rubin POD AI, los dispositivos ópticos empaquetados Ethernet NVIDIA Spectrum-X, la plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA, y el sistema NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72.
El NVIDIA Vera Rubin POD utiliza 6 chips desarrollados por NVIDIA, cubriendo CPU, GPU, escalado vertical, escalado horizontal, almacenamiento y capacidad de procesamiento. Todas las partes están diseñadas en colaboración para satisfacer las demandas de modelos avanzados y reducir los costos computacionales.
Entre ellos, la Vera CPU usa una arquitectura personalizada Olympus, la GPU Rubin introduce un motor Transformer con un rendimiento de inferencia NBFP4 de hasta 50PFLOPS, con un ancho de banda NVLink por GPU de hasta 3.6TB/s, soportando la tercera generación de computación confidencial universal (el primer TEE a nivel de rack), logrando un entorno de ejecución confiable completo entre CPU y GPU.
Estas chips ya están en producción, NVIDIA ha validado todo el sistema NVIDIA Vera Rubin NVL72, y sus socios ya han comenzado a ejecutar modelos y algoritmos de IA integrados internamente. Todo el ecosistema se prepara para desplegar Vera Rubin.
En otros lanzamientos, los dispositivos ópticos empaquetados Ethernet NVIDIA Spectrum-X mejoran significativamente la eficiencia energética y el tiempo de actividad; la plataforma de almacenamiento de memoria de contexto de inferencia redefine la pila de almacenamiento para reducir cálculos redundantes y mejorar la eficiencia de inferencia; y el NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72 reduce el costo de tokens de modelos MoE grandes a 1/10.
En cuanto a modelos abiertos, NVIDIA anunció la expansión de su familia de modelos de código abierto, lanzando nuevos modelos, conjuntos de datos y bibliotecas, incluyendo la serie de modelos de código abierto NVIDIA Nemotron con nuevos modelos Agentic RAG, modelos de seguridad, modelos de voz, y una nueva plataforma de modelos abiertos para todo tipo de robots. Sin embargo, Huang no entró en detalles durante su discurso.
En el ámbito de IA física, la era de ChatGPT física ya ha llegado, la tecnología de pila completa de NVIDIA permite que el ecosistema global cambie industrias mediante robots impulsados por IA; la amplia biblioteca de herramientas de IA de NVIDIA, incluyendo la nueva colección de modelos de código abierto Alpamayo, permite a la industria del transporte global lograr rápidamente una conducción segura de nivel L4; la plataforma de conducción autónoma NVIDIA DRIVE ya está en producción, instalada en todos los nuevos Mercedes-Benz CLA, para conducción asistida de nivel L2++ definida por IA.
01. Nueva supercomputadora de IA: 6 chips propios, potencia de cálculo de 3.6EFLOPS por rack
Huang cree que cada 10 a 15 años, la industria de la computación experimenta una transformación total, pero esta vez, dos revoluciones en plataformas ocurren simultáneamente, desde CPU a GPU, desde “software de programación” a “software de entrenamiento”, acelerando la computación y la IA que reconfiguran toda la pila de cálculo. La industria de la computación, valorada en 10 billones de dólares en la última década, está en plena modernización.
Al mismo tiempo, la demanda de capacidad de cálculo se dispara. El tamaño de los modelos crece 10 veces cada año, el número de tokens utilizados para pensar en los modelos aumenta 5 veces anualmente, y el costo por token disminuye 10 veces cada año.
Para hacer frente a esta demanda, NVIDIA ha decidido lanzar nuevos hardware de cálculo cada año. Huang reveló que Vera Rubin ya ha comenzado su producción a gran escala.
La nueva supercomputadora de IA de NVIDIA, NVIDIA Vera Rubin POD, utiliza 6 chips propios: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 (CX9) SmartNIC, BlueField-4 DPU y Spectrum-X 102.4T CPO.
Vera CPU: diseñada para movimiento de datos y procesamiento de agentes, cuenta con 88 núcleos Olympus personalizados de NVIDIA, 176 hilos de multihilo espacial de NVIDIA, NVLink-C2C de 1.8TB/s que soporta memoria unificada CPU:GPU, memoria del sistema de 1.5TB (3 veces la de Grace CPU), memoria LPDDR5X SOCAMM con ancho de banda de 1.2TB/s, y soporta computación confidencial a nivel de rack, duplicando el rendimiento en procesamiento de datos.
Rubin GPU: introduce un motor Transformer, con rendimiento de inferencia NVFP4 de hasta 50PFLOPS, 5 veces más que la GPU Blackwell, compatible hacia atrás, mejorando el rendimiento BF16/FP4 manteniendo la precisión de inferencia; el rendimiento de entrenamiento NVFP4 alcanza 35PFLOPS, 3.5 veces más que Blackwell.
Rubin también es la primera plataforma que soporta HBM4, con un ancho de banda de 22TB/s, 2.8 veces la generación anterior, capaz de ofrecer el rendimiento necesario para modelos MoE exigentes y cargas de trabajo de IA.
NVLink 6 Switch: tasa de línea única aumentada a 400Gbps, usando tecnología SerDes para transmisión de señales de alta velocidad; cada GPU puede lograr un ancho de banda de comunicación total de 3.6TB/s, el doble de la generación anterior, con un ancho total de 28.8TB/s, rendimiento de cálculo en red FP8 de 14.4TFLOPS, y soporte para enfriamiento líquido al 100%.
NVIDIA ConnectX-9 SuperNIC: cada GPU ofrece 1.6Tb/s de ancho de banda, optimizado para IA a gran escala, con ruta de datos completamente definida por software, programable y acelerada.
NVIDIA BlueField-4: DPU de 800Gbps, para tarjetas de red inteligentes y procesadores de almacenamiento, equipado con CPU Grace de 64 núcleos, combina ConnectX-9 SuperNIC para descargar tareas relacionadas con red y almacenamiento, además de mejorar la seguridad de la red, con un rendimiento de cálculo 6 veces mayor que la generación anterior, ancho de banda de memoria 3 veces mayor, y velocidad de acceso a datos de GPU al doble.
NVIDIA Vera Rubin NVL72: integra todos los componentes anteriores en un sistema de procesamiento de un solo rack, con 2 billones de transistores, rendimiento de inferencia NVFP4 de 3.6EFLOPS, rendimiento de entrenamiento NVFP4 de 2.5EFLOPS.
La memoria LPDDR5X del sistema alcanza 54TB, 2.5 veces la generación anterior; la memoria total HBM4 es de 20.7TB, 1.5 veces más; el ancho de banda HBM4 es de 1.6PB/s, 2.8 veces mayor; el ancho de banda de expansión vertical total alcanza 260TB/s, superando la capacidad total de ancho de banda de Internet global.
Este sistema, basado en el diseño de tercera generación MGX, utiliza un plato de cálculo modular, sin host, sin cables y sin ventiladores, lo que acelera la ensamblaje y el mantenimiento 18 veces respecto a GB200. Lo que antes tomaba 2 horas, ahora solo 5 minutos; además, mientras que antes usaba aproximadamente el 80% de enfriamiento líquido, ahora es 100% líquido. Un solo sistema pesa 2 toneladas, y con líquido de enfriamiento puede llegar a 2.5 toneladas.
El rack NVLink Switch permite mantenimiento sin parada y tolerancia a fallos, de modo que el sistema puede seguir funcionando incluso si se retira o despliega parcialmente el rack. El motor RAS de segunda generación permite inspecciones sin detener el funcionamiento.
Estas características aumentan el tiempo de actividad y el rendimiento del sistema, reduciendo aún más los costos de entrenamiento e inferencia, y satisfacen las altas demandas de fiabilidad y mantenibilidad de los centros de datos.
Más de 80 socios de MGX ya están listos para apoyar el despliegue de Rubin NVL72 en redes de gran escala.
02. Tres nuevos productos revolucionan la eficiencia de inferencia IA: nuevos dispositivos CPO, nuevas capas de almacenamiento de contexto, nuevo DGX SuperPOD
Al mismo tiempo, NVIDIA lanzó 3 productos importantes: dispositivos ópticos empaquetados Ethernet Spectrum-X, plataforma de almacenamiento de memoria de contexto de inferencia, y NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72.
El dispositivo Spectrum-X basado en arquitectura Spectrum-X, con diseño de 2 chips, usa SerDes de 200Gbps, cada ASIC puede ofrecer 102.4Tb/s de ancho de banda.
Incluye una plataforma de conmutación de 512 puertos de alta densidad y otra de 128 puertos compacta, cada puerto con velocidad de 800Gb/s.
El sistema de conmutación CPO (empaquetado óptico) logra un aumento de 5 veces en eficiencia energética, 10 veces en fiabilidad y 5 veces en tiempo de actividad de aplicaciones.
Esto significa que puede procesar más tokens diariamente, reduciendo aún más el costo total de propiedad (TCO) del centro de datos.
2. Plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA
La plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA es una infraestructura de almacenamiento nativa de IA a nivel de POD, para almacenar KV Cache, basada en BlueField-4 y Spectrum-X Ethernet, y estrechamente acoplada a NVIDIA Dynamo y NVLink, logrando una coordinación eficiente entre memoria, almacenamiento y red.
Esta plataforma trata el contexto como un tipo de dato de primera clase, logrando 5 veces más rendimiento de inferencia y 5 veces mejor eficiencia energética.
Esto es crucial para mejorar aplicaciones de diálogo múltiple, RAG, inferencia de múltiples pasos Agentic y otros contextos largos, que dependen en gran medida de la capacidad de almacenar, reutilizar y compartir eficientemente el contexto en todo el sistema.
La IA evoluciona de chatbots a IA Agentic (agente inteligente), que razona, llama a herramientas y mantiene estados a largo plazo, con ventanas de contexto que alcanzan millones de tokens. Estos contextos se almacenan en KV Cache, y recalcular en cada paso desperdicia tiempo de GPU y genera latencias enormes, por lo que se requiere almacenamiento.
Aunque la memoria de GPU es rápida, escasa, y el almacenamiento en red tradicional es ineficiente para contextos a corto plazo. La limitación de inferencia de IA se desplaza del cálculo al almacenamiento de contexto. Por ello, se necesita una nueva capa de memoria optimizada para inferencia, entre GPU y almacenamiento.
Esta capa ya no es un parche posterior, sino que debe diseñarse en colaboración con el almacenamiento en red, para mover datos de contexto con el menor coste posible.
Como una nueva jerarquía de almacenamiento, la plataforma de memoria de contexto de inferencia NVIDIA no reside directamente en el sistema host, sino que se conecta a los dispositivos de cálculo mediante BlueField-4. Su principal ventaja es poder escalar más eficientemente la piscina de almacenamiento, evitando cálculos redundantes de KV Cache.
NVIDIA trabaja estrechamente con socios de almacenamiento para integrar esta plataforma en el sistema Rubin, permitiendo a los clientes desplegarla como parte de una infraestructura de IA completamente integrada.
3. NVIDIA DGX SuperPOD basado en Vera Rubin
A nivel de sistema, NVIDIA DGX SuperPOD, como blueprint para despliegues a gran escala de IA, usa 8 sistemas DGX Vera Rubin NVL72, con red NVLink 6 para escalado vertical, Spectrum-X Ethernet para escalado horizontal, y la plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA, todo validado en ingeniería.
El sistema completo es gestionado por el software NVIDIA Mission Control, logrando máxima eficiencia. Los clientes pueden desplegarlo como una plataforma llave en mano, logrando entrenar e inferir con menos GPU.
Gracias a la colaboración extrema en chips, racks, sistemas, software y diseño, la plataforma Rubin reduce significativamente los costos de entrenamiento e inferencia. Comparado con Blackwell, para entrenar modelos MoE de tamaño similar, se requiere solo 1/4 de las GPU; y el costo de tokens para modelos MoE grandes en la misma latencia se reduce a 1/10.
También se lanza el NVIDIA DGX SuperPOD con sistema DGX Rubin NVL8.
Con la arquitectura Vera Rubin, NVIDIA trabaja junto a socios y clientes para construir el sistema de IA más grande, avanzado y de menor coste del mundo, acelerando la adopción generalizada de IA.
La infraestructura Rubin estará disponible en la segunda mitad del año a través de CSP y socios de integración de sistemas, con Microsoft entre los primeros desplegadores.
03. Expansión del universo de modelos abiertos: nuevos modelos, datos y contribuciones a ecosistemas open source
En software y modelos, NVIDIA continúa invirtiendo en open source.
Plataformas como OpenRouter muestran que en el último año, el uso de modelos de IA creció 20 veces, y aproximadamente 1/4 de los tokens provienen de modelos open source.
En 2025, NVIDIA fue el mayor contribuyente en modelos, datos y recetas open source en Hugging Face, con 650 modelos y 250 conjuntos de datos abiertos publicados.
Los modelos open source de NVIDIA lideran varias clasificaciones. Los desarrolladores pueden usar estos modelos, aprender de ellos, continuar entrenando, ampliar conjuntos de datos y construir sistemas de IA usando herramientas y documentación open source.
Inspirado por Perplexity, Huang observó que los agentes deben ser multi-modelo, multi-nube y en entornos híbridos, que es la arquitectura básica de los sistemas de IA Agentic, adoptada por casi todas las startups.
Con los modelos y herramientas open source de NVIDIA, los desarrolladores ahora pueden personalizar sistemas de IA y usar capacidades de modelos de vanguardia. NVIDIA ha integrado estos marcos en un “plan” y los ha incorporado en plataformas SaaS, permitiendo despliegues rápidos mediante plantillas.
En demostraciones en vivo, estos sistemas pueden, según la intención del usuario, decidir automáticamente si la tarea debe ser manejada por modelos privados locales o por modelos de vanguardia en la nube, además de llamar a herramientas externas (como API de correo, control de robots, servicios de calendario, etc.), y realizar fusiones multimodales para procesar texto, voz, imágenes y señales de sensores robóticos de forma unificada.
Estas capacidades, antes inimaginables, ahora son triviales. Plataformas empresariales como ServiceNow y Snowflake ya soportan funciones similares.
04. Modelo Alpha-Mayo open source para que los autos autónomos “piensen”
NVIDIA cree que la IA física y los robots acabarán siendo los segmentos de consumo más grandes del mundo. Todo lo que pueda moverse, será completamente autónomo, impulsado por IA física.
La IA ha pasado por las fases de percepción, generación y agentes inteligentes, y ahora entra en la era de la IA física, donde los modelos comprenden leyes físicas y generan acciones directamente desde percepciones del mundo real.
Para lograr esto, la IA física debe aprender conocimientos básicos del mundo: persistencia de objetos, gravedad, fricción. La adquisición de estas capacidades dependerá de tres computadoras: la de entrenamiento (DGX) para crear modelos de IA, la de inferencia (robots/chips en vehículos) para ejecución en tiempo real, y la de simulación (Omniverse) para generar datos sintéticos y verificar lógica física.
El modelo central será Cosmos, un modelo base del mundo que alinea lenguaje, imágenes, 3D y leyes físicas, soportando toda la cadena desde generación de datos de entrenamiento en simulación.
La IA física aparecerá en tres tipos de entidades: edificios (fábricas, almacenes), robots, autos autónomos.
Huang cree que la conducción autónoma será la primera gran aplicación de la IA física. Estos sistemas necesitan entender el mundo real, tomar decisiones y actuar, con requisitos muy altos en seguridad, simulación y datos.
Para ello, NVIDIA lanza Alpha-Mayo, un sistema completo compuesto por modelos open source, herramientas de simulación y conjuntos de datos de IA física, para acelerar el desarrollo seguro y basado en inferencia de IA física.
Su conjunto de productos proporciona a fabricantes de autos, proveedores, startups e investigadores los módulos básicos para construir sistemas de conducción autónoma nivel L4.
Alpha-Mayo es el primer modelo en la industria que realmente “piensa” en autos autónomos, y ya es open source. Descompone problemas en pasos, razona todas las posibilidades y escoge la ruta más segura.
Este modelo de razonamiento-acción permite a los autos autónomos resolver escenarios complejos y extremos, como fallos en semáforos en intersecciones concurridas.
Alpha-Mayo tiene 10 mil millones de parámetros, suficiente para tareas de conducción, y es lo suficientemente liviano para funcionar en estaciones de trabajo diseñadas para investigadores en conducción autónoma.
Puede recibir texto, cámaras de visión panorámica, estados históricos del vehículo y entradas de navegación, y producir trayectorias y procesos de razonamiento, para que los pasajeros entiendan por qué el vehículo toma ciertas acciones.
En el video promocional, con Alpha-Mayo, los autos autónomos pueden evitar peatones, predecir vehículos que giran a la izquierda y cambiar de carril automáticamente sin intervención.
Huang dice que el Mercedes-Benz CLA equipado con Alpha-Mayo ya está en producción, y fue calificado como el coche más seguro del mundo por NCAP. Cada línea de código, chip y sistema ha sido certificado en seguridad. Se lanzará en EE. UU. y más adelante este año llegará con capacidades de conducción más avanzadas, incluyendo conducción en autopista sin manos y conducción autónoma completa en entornos urbanos.
NVIDIA también ha publicado algunos conjuntos de datos para entrenar Alpha-Mayo, y el marco de evaluación y simulación open source Alpha-Sim. Los desarrolladores pueden ajustar Alpha-Mayo con sus propios datos, o usar Cosmos para generar datos sintéticos, y entrenar y probar aplicaciones de conducción autónoma combinando datos reales y sintéticos. Además, NVIDIA anunció que la plataforma NVIDIA DRIVE ya está en producción.
NVIDIA afirma que empresas líderes en robótica como Boston Dynamics, Franka Robotics, robots quirúrgicos, LG Electronics, NEURA, XRLabs y Zhiyuan Robotics están construidas sobre NVIDIA Isaac y GR00T.
Huang también anunció una colaboración con Siemens. Siemens está integrando CUDA-X, modelos de IA y Omniverse en sus herramientas y plataformas EDA, CAE y gemelos digitales. La IA física será ampliamente utilizada en todo el proceso, desde diseño, simulación, fabricación y operación.
05. Conclusión: abrazar el código abierto con la izquierda, hacer que el hardware sea insustituible con la derecha
A medida que la infraestructura de IA se desplaza del entrenamiento a la inferencia a gran escala, la competencia en plataformas evoluciona de poder de cálculo puntual a ingeniería de sistemas que abarca chips, racks, redes y software, con el objetivo de entregar la máxima capacidad de inferencia con el menor TCO. La IA entra en una nueva fase de “operación en fábrica”.
NVIDIA presta mucha atención al diseño a nivel de sistema, y Vera Rubin logra mejorar el rendimiento y la economía tanto en entrenamiento como en inferencia, pudiendo ser una alternativa plug-and-play a Blackwell, con transición sin fisuras.
En cuanto a la estrategia de plataforma, NVIDIA sigue considerando que el entrenamiento es fundamental, porque solo entrenando rápidamente los modelos más avanzados, la inferencia puede beneficiarse realmente. Por eso, en la GPU Rubin se introduce NVFP4 para entrenamiento, mejorando aún más el rendimiento y reduciendo el TCO.
Al mismo tiempo, esta gigante de la computación IA continúa fortaleciendo significativamente la comunicación en red, tanto en arquitectura vertical como horizontal, y considera el contexto como un cuello de botella clave, promoviendo un diseño colaborativo de almacenamiento, red y cálculo.
NVIDIA, por un lado, abre mucho su código, y por otro, hace que su hardware, interconexiones y diseño de sistemas sean cada vez más “insustituibles”. Esta estrategia de ampliar continuamente la demanda, incentivar el consumo de tokens, escalar la inferencia y ofrecer infraestructura de alto valor, está creando una barrera de protección cada vez más sólida para NVIDIA.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
黄仁勋1.5 horas de presentación continua de 8 nuevos productos, Nvidia apuesta a fondo por la inferencia de IA y la IA física
Autor | ZeR0 Junda, Zhi Dongxi
Editor | Mo Ying
La noticia desde Las Vegas, Zhi Dongxi, 5 de enero, informa que acaba de realizarse la primera conferencia temática de 2026 del CEO y fundador de NVIDIA, Huang Renxun, en la feria internacional de electrónica de consumo CES 2026. Como de costumbre, Huang llevaba una chaqueta de cuero y en 1.5 horas anunció 8 lanzamientos importantes, desde chips y racks hasta diseño de redes, presentando en profundidad toda la plataforma de nueva generación.
En los campos de cálculo acelerado e infraestructura de IA, NVIDIA lanzó la supercomputadora NVIDIA Vera Rubin POD AI, los dispositivos ópticos empaquetados Ethernet NVIDIA Spectrum-X, la plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA, y el sistema NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72.
El NVIDIA Vera Rubin POD utiliza 6 chips desarrollados por NVIDIA, cubriendo CPU, GPU, escalado vertical, escalado horizontal, almacenamiento y capacidad de procesamiento. Todas las partes están diseñadas en colaboración para satisfacer las demandas de modelos avanzados y reducir los costos computacionales.
Entre ellos, la Vera CPU usa una arquitectura personalizada Olympus, la GPU Rubin introduce un motor Transformer con un rendimiento de inferencia NBFP4 de hasta 50PFLOPS, con un ancho de banda NVLink por GPU de hasta 3.6TB/s, soportando la tercera generación de computación confidencial universal (el primer TEE a nivel de rack), logrando un entorno de ejecución confiable completo entre CPU y GPU.
Estas chips ya están en producción, NVIDIA ha validado todo el sistema NVIDIA Vera Rubin NVL72, y sus socios ya han comenzado a ejecutar modelos y algoritmos de IA integrados internamente. Todo el ecosistema se prepara para desplegar Vera Rubin.
En otros lanzamientos, los dispositivos ópticos empaquetados Ethernet NVIDIA Spectrum-X mejoran significativamente la eficiencia energética y el tiempo de actividad; la plataforma de almacenamiento de memoria de contexto de inferencia redefine la pila de almacenamiento para reducir cálculos redundantes y mejorar la eficiencia de inferencia; y el NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72 reduce el costo de tokens de modelos MoE grandes a 1/10.
En cuanto a modelos abiertos, NVIDIA anunció la expansión de su familia de modelos de código abierto, lanzando nuevos modelos, conjuntos de datos y bibliotecas, incluyendo la serie de modelos de código abierto NVIDIA Nemotron con nuevos modelos Agentic RAG, modelos de seguridad, modelos de voz, y una nueva plataforma de modelos abiertos para todo tipo de robots. Sin embargo, Huang no entró en detalles durante su discurso.
En el ámbito de IA física, la era de ChatGPT física ya ha llegado, la tecnología de pila completa de NVIDIA permite que el ecosistema global cambie industrias mediante robots impulsados por IA; la amplia biblioteca de herramientas de IA de NVIDIA, incluyendo la nueva colección de modelos de código abierto Alpamayo, permite a la industria del transporte global lograr rápidamente una conducción segura de nivel L4; la plataforma de conducción autónoma NVIDIA DRIVE ya está en producción, instalada en todos los nuevos Mercedes-Benz CLA, para conducción asistida de nivel L2++ definida por IA.
01. Nueva supercomputadora de IA: 6 chips propios, potencia de cálculo de 3.6EFLOPS por rack
Huang cree que cada 10 a 15 años, la industria de la computación experimenta una transformación total, pero esta vez, dos revoluciones en plataformas ocurren simultáneamente, desde CPU a GPU, desde “software de programación” a “software de entrenamiento”, acelerando la computación y la IA que reconfiguran toda la pila de cálculo. La industria de la computación, valorada en 10 billones de dólares en la última década, está en plena modernización.
Al mismo tiempo, la demanda de capacidad de cálculo se dispara. El tamaño de los modelos crece 10 veces cada año, el número de tokens utilizados para pensar en los modelos aumenta 5 veces anualmente, y el costo por token disminuye 10 veces cada año.
Para hacer frente a esta demanda, NVIDIA ha decidido lanzar nuevos hardware de cálculo cada año. Huang reveló que Vera Rubin ya ha comenzado su producción a gran escala.
La nueva supercomputadora de IA de NVIDIA, NVIDIA Vera Rubin POD, utiliza 6 chips propios: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 (CX9) SmartNIC, BlueField-4 DPU y Spectrum-X 102.4T CPO.
Vera CPU: diseñada para movimiento de datos y procesamiento de agentes, cuenta con 88 núcleos Olympus personalizados de NVIDIA, 176 hilos de multihilo espacial de NVIDIA, NVLink-C2C de 1.8TB/s que soporta memoria unificada CPU:GPU, memoria del sistema de 1.5TB (3 veces la de Grace CPU), memoria LPDDR5X SOCAMM con ancho de banda de 1.2TB/s, y soporta computación confidencial a nivel de rack, duplicando el rendimiento en procesamiento de datos.
Rubin GPU: introduce un motor Transformer, con rendimiento de inferencia NVFP4 de hasta 50PFLOPS, 5 veces más que la GPU Blackwell, compatible hacia atrás, mejorando el rendimiento BF16/FP4 manteniendo la precisión de inferencia; el rendimiento de entrenamiento NVFP4 alcanza 35PFLOPS, 3.5 veces más que Blackwell.
Rubin también es la primera plataforma que soporta HBM4, con un ancho de banda de 22TB/s, 2.8 veces la generación anterior, capaz de ofrecer el rendimiento necesario para modelos MoE exigentes y cargas de trabajo de IA.
NVLink 6 Switch: tasa de línea única aumentada a 400Gbps, usando tecnología SerDes para transmisión de señales de alta velocidad; cada GPU puede lograr un ancho de banda de comunicación total de 3.6TB/s, el doble de la generación anterior, con un ancho total de 28.8TB/s, rendimiento de cálculo en red FP8 de 14.4TFLOPS, y soporte para enfriamiento líquido al 100%.
NVIDIA ConnectX-9 SuperNIC: cada GPU ofrece 1.6Tb/s de ancho de banda, optimizado para IA a gran escala, con ruta de datos completamente definida por software, programable y acelerada.
NVIDIA BlueField-4: DPU de 800Gbps, para tarjetas de red inteligentes y procesadores de almacenamiento, equipado con CPU Grace de 64 núcleos, combina ConnectX-9 SuperNIC para descargar tareas relacionadas con red y almacenamiento, además de mejorar la seguridad de la red, con un rendimiento de cálculo 6 veces mayor que la generación anterior, ancho de banda de memoria 3 veces mayor, y velocidad de acceso a datos de GPU al doble.
NVIDIA Vera Rubin NVL72: integra todos los componentes anteriores en un sistema de procesamiento de un solo rack, con 2 billones de transistores, rendimiento de inferencia NVFP4 de 3.6EFLOPS, rendimiento de entrenamiento NVFP4 de 2.5EFLOPS.
La memoria LPDDR5X del sistema alcanza 54TB, 2.5 veces la generación anterior; la memoria total HBM4 es de 20.7TB, 1.5 veces más; el ancho de banda HBM4 es de 1.6PB/s, 2.8 veces mayor; el ancho de banda de expansión vertical total alcanza 260TB/s, superando la capacidad total de ancho de banda de Internet global.
Este sistema, basado en el diseño de tercera generación MGX, utiliza un plato de cálculo modular, sin host, sin cables y sin ventiladores, lo que acelera la ensamblaje y el mantenimiento 18 veces respecto a GB200. Lo que antes tomaba 2 horas, ahora solo 5 minutos; además, mientras que antes usaba aproximadamente el 80% de enfriamiento líquido, ahora es 100% líquido. Un solo sistema pesa 2 toneladas, y con líquido de enfriamiento puede llegar a 2.5 toneladas.
El rack NVLink Switch permite mantenimiento sin parada y tolerancia a fallos, de modo que el sistema puede seguir funcionando incluso si se retira o despliega parcialmente el rack. El motor RAS de segunda generación permite inspecciones sin detener el funcionamiento.
Estas características aumentan el tiempo de actividad y el rendimiento del sistema, reduciendo aún más los costos de entrenamiento e inferencia, y satisfacen las altas demandas de fiabilidad y mantenibilidad de los centros de datos.
Más de 80 socios de MGX ya están listos para apoyar el despliegue de Rubin NVL72 en redes de gran escala.
02. Tres nuevos productos revolucionan la eficiencia de inferencia IA: nuevos dispositivos CPO, nuevas capas de almacenamiento de contexto, nuevo DGX SuperPOD
Al mismo tiempo, NVIDIA lanzó 3 productos importantes: dispositivos ópticos empaquetados Ethernet Spectrum-X, plataforma de almacenamiento de memoria de contexto de inferencia, y NVIDIA DGX SuperPOD basado en DGX Vera Rubin NVL72.
1. Dispositivo óptico empaquetado Ethernet Spectrum-X
El dispositivo Spectrum-X basado en arquitectura Spectrum-X, con diseño de 2 chips, usa SerDes de 200Gbps, cada ASIC puede ofrecer 102.4Tb/s de ancho de banda.
Incluye una plataforma de conmutación de 512 puertos de alta densidad y otra de 128 puertos compacta, cada puerto con velocidad de 800Gb/s.
El sistema de conmutación CPO (empaquetado óptico) logra un aumento de 5 veces en eficiencia energética, 10 veces en fiabilidad y 5 veces en tiempo de actividad de aplicaciones.
Esto significa que puede procesar más tokens diariamente, reduciendo aún más el costo total de propiedad (TCO) del centro de datos.
2. Plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA
La plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA es una infraestructura de almacenamiento nativa de IA a nivel de POD, para almacenar KV Cache, basada en BlueField-4 y Spectrum-X Ethernet, y estrechamente acoplada a NVIDIA Dynamo y NVLink, logrando una coordinación eficiente entre memoria, almacenamiento y red.
Esta plataforma trata el contexto como un tipo de dato de primera clase, logrando 5 veces más rendimiento de inferencia y 5 veces mejor eficiencia energética.
Esto es crucial para mejorar aplicaciones de diálogo múltiple, RAG, inferencia de múltiples pasos Agentic y otros contextos largos, que dependen en gran medida de la capacidad de almacenar, reutilizar y compartir eficientemente el contexto en todo el sistema.
La IA evoluciona de chatbots a IA Agentic (agente inteligente), que razona, llama a herramientas y mantiene estados a largo plazo, con ventanas de contexto que alcanzan millones de tokens. Estos contextos se almacenan en KV Cache, y recalcular en cada paso desperdicia tiempo de GPU y genera latencias enormes, por lo que se requiere almacenamiento.
Aunque la memoria de GPU es rápida, escasa, y el almacenamiento en red tradicional es ineficiente para contextos a corto plazo. La limitación de inferencia de IA se desplaza del cálculo al almacenamiento de contexto. Por ello, se necesita una nueva capa de memoria optimizada para inferencia, entre GPU y almacenamiento.
Esta capa ya no es un parche posterior, sino que debe diseñarse en colaboración con el almacenamiento en red, para mover datos de contexto con el menor coste posible.
Como una nueva jerarquía de almacenamiento, la plataforma de memoria de contexto de inferencia NVIDIA no reside directamente en el sistema host, sino que se conecta a los dispositivos de cálculo mediante BlueField-4. Su principal ventaja es poder escalar más eficientemente la piscina de almacenamiento, evitando cálculos redundantes de KV Cache.
NVIDIA trabaja estrechamente con socios de almacenamiento para integrar esta plataforma en el sistema Rubin, permitiendo a los clientes desplegarla como parte de una infraestructura de IA completamente integrada.
3. NVIDIA DGX SuperPOD basado en Vera Rubin
A nivel de sistema, NVIDIA DGX SuperPOD, como blueprint para despliegues a gran escala de IA, usa 8 sistemas DGX Vera Rubin NVL72, con red NVLink 6 para escalado vertical, Spectrum-X Ethernet para escalado horizontal, y la plataforma de almacenamiento de memoria de contexto de inferencia NVIDIA, todo validado en ingeniería.
El sistema completo es gestionado por el software NVIDIA Mission Control, logrando máxima eficiencia. Los clientes pueden desplegarlo como una plataforma llave en mano, logrando entrenar e inferir con menos GPU.
Gracias a la colaboración extrema en chips, racks, sistemas, software y diseño, la plataforma Rubin reduce significativamente los costos de entrenamiento e inferencia. Comparado con Blackwell, para entrenar modelos MoE de tamaño similar, se requiere solo 1/4 de las GPU; y el costo de tokens para modelos MoE grandes en la misma latencia se reduce a 1/10.
También se lanza el NVIDIA DGX SuperPOD con sistema DGX Rubin NVL8.
Con la arquitectura Vera Rubin, NVIDIA trabaja junto a socios y clientes para construir el sistema de IA más grande, avanzado y de menor coste del mundo, acelerando la adopción generalizada de IA.
La infraestructura Rubin estará disponible en la segunda mitad del año a través de CSP y socios de integración de sistemas, con Microsoft entre los primeros desplegadores.
03. Expansión del universo de modelos abiertos: nuevos modelos, datos y contribuciones a ecosistemas open source
En software y modelos, NVIDIA continúa invirtiendo en open source.
Plataformas como OpenRouter muestran que en el último año, el uso de modelos de IA creció 20 veces, y aproximadamente 1/4 de los tokens provienen de modelos open source.
En 2025, NVIDIA fue el mayor contribuyente en modelos, datos y recetas open source en Hugging Face, con 650 modelos y 250 conjuntos de datos abiertos publicados.
Los modelos open source de NVIDIA lideran varias clasificaciones. Los desarrolladores pueden usar estos modelos, aprender de ellos, continuar entrenando, ampliar conjuntos de datos y construir sistemas de IA usando herramientas y documentación open source.
Inspirado por Perplexity, Huang observó que los agentes deben ser multi-modelo, multi-nube y en entornos híbridos, que es la arquitectura básica de los sistemas de IA Agentic, adoptada por casi todas las startups.
Con los modelos y herramientas open source de NVIDIA, los desarrolladores ahora pueden personalizar sistemas de IA y usar capacidades de modelos de vanguardia. NVIDIA ha integrado estos marcos en un “plan” y los ha incorporado en plataformas SaaS, permitiendo despliegues rápidos mediante plantillas.
En demostraciones en vivo, estos sistemas pueden, según la intención del usuario, decidir automáticamente si la tarea debe ser manejada por modelos privados locales o por modelos de vanguardia en la nube, además de llamar a herramientas externas (como API de correo, control de robots, servicios de calendario, etc.), y realizar fusiones multimodales para procesar texto, voz, imágenes y señales de sensores robóticos de forma unificada.
Estas capacidades, antes inimaginables, ahora son triviales. Plataformas empresariales como ServiceNow y Snowflake ya soportan funciones similares.
04. Modelo Alpha-Mayo open source para que los autos autónomos “piensen”
NVIDIA cree que la IA física y los robots acabarán siendo los segmentos de consumo más grandes del mundo. Todo lo que pueda moverse, será completamente autónomo, impulsado por IA física.
La IA ha pasado por las fases de percepción, generación y agentes inteligentes, y ahora entra en la era de la IA física, donde los modelos comprenden leyes físicas y generan acciones directamente desde percepciones del mundo real.
Para lograr esto, la IA física debe aprender conocimientos básicos del mundo: persistencia de objetos, gravedad, fricción. La adquisición de estas capacidades dependerá de tres computadoras: la de entrenamiento (DGX) para crear modelos de IA, la de inferencia (robots/chips en vehículos) para ejecución en tiempo real, y la de simulación (Omniverse) para generar datos sintéticos y verificar lógica física.
El modelo central será Cosmos, un modelo base del mundo que alinea lenguaje, imágenes, 3D y leyes físicas, soportando toda la cadena desde generación de datos de entrenamiento en simulación.
La IA física aparecerá en tres tipos de entidades: edificios (fábricas, almacenes), robots, autos autónomos.
Huang cree que la conducción autónoma será la primera gran aplicación de la IA física. Estos sistemas necesitan entender el mundo real, tomar decisiones y actuar, con requisitos muy altos en seguridad, simulación y datos.
Para ello, NVIDIA lanza Alpha-Mayo, un sistema completo compuesto por modelos open source, herramientas de simulación y conjuntos de datos de IA física, para acelerar el desarrollo seguro y basado en inferencia de IA física.
Su conjunto de productos proporciona a fabricantes de autos, proveedores, startups e investigadores los módulos básicos para construir sistemas de conducción autónoma nivel L4.
Alpha-Mayo es el primer modelo en la industria que realmente “piensa” en autos autónomos, y ya es open source. Descompone problemas en pasos, razona todas las posibilidades y escoge la ruta más segura.
Este modelo de razonamiento-acción permite a los autos autónomos resolver escenarios complejos y extremos, como fallos en semáforos en intersecciones concurridas.
Alpha-Mayo tiene 10 mil millones de parámetros, suficiente para tareas de conducción, y es lo suficientemente liviano para funcionar en estaciones de trabajo diseñadas para investigadores en conducción autónoma.
Puede recibir texto, cámaras de visión panorámica, estados históricos del vehículo y entradas de navegación, y producir trayectorias y procesos de razonamiento, para que los pasajeros entiendan por qué el vehículo toma ciertas acciones.
En el video promocional, con Alpha-Mayo, los autos autónomos pueden evitar peatones, predecir vehículos que giran a la izquierda y cambiar de carril automáticamente sin intervención.
Huang dice que el Mercedes-Benz CLA equipado con Alpha-Mayo ya está en producción, y fue calificado como el coche más seguro del mundo por NCAP. Cada línea de código, chip y sistema ha sido certificado en seguridad. Se lanzará en EE. UU. y más adelante este año llegará con capacidades de conducción más avanzadas, incluyendo conducción en autopista sin manos y conducción autónoma completa en entornos urbanos.
NVIDIA también ha publicado algunos conjuntos de datos para entrenar Alpha-Mayo, y el marco de evaluación y simulación open source Alpha-Sim. Los desarrolladores pueden ajustar Alpha-Mayo con sus propios datos, o usar Cosmos para generar datos sintéticos, y entrenar y probar aplicaciones de conducción autónoma combinando datos reales y sintéticos. Además, NVIDIA anunció que la plataforma NVIDIA DRIVE ya está en producción.
NVIDIA afirma que empresas líderes en robótica como Boston Dynamics, Franka Robotics, robots quirúrgicos, LG Electronics, NEURA, XRLabs y Zhiyuan Robotics están construidas sobre NVIDIA Isaac y GR00T.
Huang también anunció una colaboración con Siemens. Siemens está integrando CUDA-X, modelos de IA y Omniverse en sus herramientas y plataformas EDA, CAE y gemelos digitales. La IA física será ampliamente utilizada en todo el proceso, desde diseño, simulación, fabricación y operación.
05. Conclusión: abrazar el código abierto con la izquierda, hacer que el hardware sea insustituible con la derecha
A medida que la infraestructura de IA se desplaza del entrenamiento a la inferencia a gran escala, la competencia en plataformas evoluciona de poder de cálculo puntual a ingeniería de sistemas que abarca chips, racks, redes y software, con el objetivo de entregar la máxima capacidad de inferencia con el menor TCO. La IA entra en una nueva fase de “operación en fábrica”.
NVIDIA presta mucha atención al diseño a nivel de sistema, y Vera Rubin logra mejorar el rendimiento y la economía tanto en entrenamiento como en inferencia, pudiendo ser una alternativa plug-and-play a Blackwell, con transición sin fisuras.
En cuanto a la estrategia de plataforma, NVIDIA sigue considerando que el entrenamiento es fundamental, porque solo entrenando rápidamente los modelos más avanzados, la inferencia puede beneficiarse realmente. Por eso, en la GPU Rubin se introduce NVFP4 para entrenamiento, mejorando aún más el rendimiento y reduciendo el TCO.
Al mismo tiempo, esta gigante de la computación IA continúa fortaleciendo significativamente la comunicación en red, tanto en arquitectura vertical como horizontal, y considera el contexto como un cuello de botella clave, promoviendo un diseño colaborativo de almacenamiento, red y cálculo.
NVIDIA, por un lado, abre mucho su código, y por otro, hace que su hardware, interconexiones y diseño de sistemas sean cada vez más “insustituibles”. Esta estrategia de ampliar continuamente la demanda, incentivar el consumo de tokens, escalar la inferencia y ofrecer infraestructura de alto valor, está creando una barrera de protección cada vez más sólida para NVIDIA.