黄仁勋 CES2026 Último discurso: tres temas clave, una "bestia de chips"

Autor: Li Hailun Su Yang

Hora de Beijing, 6 de enero, el CEO de Nvidia, Huang Renxun, volvió a subir al escenario principal del CES2026 vestido con su icónico abrigo de cuero.

En el CES 2025, Nvidia presentó el chip Blackwell de producción en masa y la pila completa de tecnología de IA física. En la conferencia, Huang Renxun enfatizó que se está abriendo una “Era de IA física”. Describió un futuro lleno de imaginación: autos autónomos con capacidad de razonamiento, robots que pueden entender y pensar, y AIAgent (agentes inteligentes) que pueden manejar tareas de contexto largo con millones de tokens.

Un año ha pasado y la industria de la IA ha experimentado una gran transformación y evolución. Al revisar los cambios de este año en la conferencia, Huang Renxun destacó los modelos de código abierto.

Dijo que modelos de inferencia de código abierto como DeepSeek R1 han hecho que toda la industria se dé cuenta de que: cuando la colaboración abierta y global realmente se activa, la difusión de la IA será extremadamente rápida. Aunque los modelos de código abierto aún son aproximadamente medio año más lentos en capacidades generales que los modelos de vanguardia, se acercan cada seis meses, y las descargas y el uso ya están en un crecimiento explosivo.

En comparación con 2025, donde se mostraron más visiones y posibilidades, esta vez Nvidia comenzó a abordar sistemáticamente la cuestión de “cómo lograrlo”: en torno a la IA de inferencia, se trabaja en completar la infraestructura de computación, red y almacenamiento necesaria para operaciones a largo plazo, reducir significativamente los costos de inferencia y integrar estas capacidades directamente en escenarios reales como conducción autónoma y robótica.

En el discurso de Huang Renxun en CES, se abordaron tres líneas principales:

● A nivel de sistemas e infraestructura, Nvidia ha reconstruido la arquitectura de computación, red y almacenamiento en torno a las necesidades de inferencia a largo plazo. Con plataformas como Rubin, NVLink 6, Spectrum-X Ethernet y la plataforma de memoria de contexto de inferencia, estas actualizaciones abordan los cuellos de botella de altos costos de inferencia, contexto difícil de mantener y escalabilidad limitada, resolviendo problemas como “pensar más un rato”, costos de cálculo y duración de ejecución.

● En el nivel de modelos, Nvidia sitúa la inferencia de IA (Reasoning / Agentic AI) en el centro. Con modelos y herramientas como Alpamayo, Nemotron y Cosmos Reason, impulsa a la IA a pasar de “generar contenido” a “pensar continuamente”, transformándose de un “modelo de respuesta única” a “agentes inteligentes que pueden trabajar a largo plazo”.

● En el nivel de aplicaciones y despliegues, estas capacidades se integran directamente en escenarios físicos como conducción autónoma y robótica. Ya sea en el sistema de conducción autónoma impulsado por Alpamayo o en el ecosistema de robots con GR00T y Jetson, colaboran con proveedores de la nube y plataformas empresariales para impulsar despliegues a escala.

01 Desde la hoja de ruta hasta la producción en masa: Rubin revela datos de rendimiento por primera vez

En este CES, Nvidia reveló por primera vez detalles técnicos completos de la arquitectura Rubin.

En su discurso, Huang Renxun comenzó con Test-time Scaling (escalado en tiempo de inferencia), un concepto que puede entenderse como que, para que la IA sea más inteligente, ya no basta con que “estudie más”, sino que “piensa más cuando enfrenta un problema”.

Antes, la mejora de capacidades de la IA dependía principalmente de aumentar la potencia de cálculo en la fase de entrenamiento, haciendo los modelos cada vez más grandes; ahora, el cambio es que, incluso si el modelo no crece más, simplemente dándole más tiempo y recursos en cada uso, los resultados mejoran notablemente.

¿Cómo hacer que “la IA piense más un rato” sea económicamente viable? La nueva plataforma de computación de IA de próxima generación basada en la arquitectura Rubin es la respuesta a este problema.

Huang Renxun explicó que se trata de un sistema completo de computación de IA de próxima generación, que mediante la colaboración de Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4 y Spectrum-6, logra una reducción revolucionaria en los costos de inferencia.

La GPU Rubin de Nvidia es el chip central para el cálculo de IA en la arquitectura Rubin, con el objetivo de reducir significativamente el costo por unidad de inferencia y entrenamiento.

En resumen, la tarea principal de la GPU Rubin es “hacer que la IA sea más económica y más inteligente”.

La capacidad central de la GPU Rubin radica en que: una misma GPU puede hacer más trabajo. Puede manejar más tareas de inferencia a la vez, recordar contextos más largos, y la comunicación con otras GPU es más rápida, lo que significa que muchos escenarios que antes requerían “múltiples tarjetas” ahora pueden realizarse con menos GPU.

El resultado es que la inferencia no solo es más rápida, sino también mucho más económica.

Huang Renxun revisó en vivo los parámetros de hardware de la arquitectura Rubin NVL72: contiene 220 billones de transistores, con un ancho de banda de 260 TB/segundo, siendo la primera plataforma en la industria que soporta cálculos confidenciales a escala de chasis.

En general, en comparación con Blackwell, la GPU Rubin logra saltos generacionales en indicadores clave: rendimiento de inferencia NVFP4 aumentado a 50 PFLOPS (5 veces), rendimiento de entrenamiento a 35 PFLOPS (3.5 veces), ancho de banda de memoria HBM4 a 22 TB/s (2.8 veces), y el ancho de banda de interconexión NVLink de una GPU se duplica a 3.6 TB/s.

Estas mejoras permiten que una sola GPU maneje más tareas de inferencia y contextos más largos, reduciendo fundamentalmente la dependencia de múltiples GPUs.

Vera CPU, diseñada específicamente para mover datos y gestionar agentes, cuenta con 88 núcleos propios de Nvidia Olympus, con 1.5 TB de memoria del sistema (tres veces más que la generación anterior, Grace CPU), y una memoria coherente entre CPU y GPU mediante NVLink-C2C a 1.8 TB/s.

A diferencia de las CPU tradicionales, Vera se centra en la gestión de datos en escenarios de inferencia de IA y lógica de inferencia de múltiples pasos, actuando como coordinador del sistema para que la “IA piense más un rato” de manera eficiente.

NVLink 6, con un ancho de banda de 3.6 TB/s y capacidad de cálculo en red, permite que los 72 GPU en la arquitectura Rubin trabajen en conjunto como un “super GPU”, que es la infraestructura clave para reducir los costos de inferencia.

De esta forma, los datos y resultados intermedios necesarios para la inferencia pueden fluir rápidamente entre GPU, sin esperas, copias o recomputaciones repetidas.

En la arquitectura Rubin, NVLink-6 se encarga de la colaboración interna entre GPU, BlueField-4 gestiona la programación de contexto y datos, y ConnectX-9 proporciona la conexión de red de alta velocidad al sistema. Esto garantiza que el sistema Rubin pueda comunicarse eficientemente con otros chasis, centros de datos y plataformas en la nube, siendo la base para que las tareas de entrenamiento e inferencia a gran escala funcionen sin problemas.

En comparación con la generación anterior, Nvidia también proporcionó datos concretos y directos: en comparación con la plataforma NVIDIA Blackwell, se puede reducir hasta 10 veces el costo de tokens en la fase de inferencia, y reducir a una cuarta parte la cantidad de GPU necesarias para modelos MoE (mezcla de expertos) en entrenamiento.

Nvidia afirmó que Microsoft ya ha comprometido desplegar decenas de miles de chips Vera Rubin en su próxima supercomputadora Fairwater AI, y proveedores de la nube como CoreWeave ofrecerán instancias Rubin en la segunda mitad de 2026. Esta infraestructura de “pensar más un rato” está pasando de la demostración técnica a la comercialización a escala.

02 ¿Cómo resolver el “cuello de botella” del almacenamiento?

Que la IA “piense más un rato” todavía enfrenta un desafío técnico clave: ¿dónde colocar los datos de contexto?

Cuando la IA procesa tareas complejas que requieren múltiples diálogos y pasos de inferencia, genera una gran cantidad de datos de contexto (KV Cache). La arquitectura tradicional los almacena en la costosa y limitada memoria GPU, o en almacenamiento normal (que es demasiado lento para acceder). Si no se resuelve este “cuello de botella de almacenamiento”, incluso las GPUs más potentes se verán afectadas.

Para abordar esto, en este CES Nvidia reveló por primera vez la plataforma completa de almacenamiento de memoria de contexto de inferencia impulsada por BlueField-4, cuyo objetivo principal es crear una “tercera capa” entre la memoria GPU y el almacenamiento tradicional. Que sea lo suficientemente rápida, con capacidad suficiente y capaz de soportar operaciones a largo plazo de IA.

Desde el punto de vista técnico, esta plataforma no es un solo componente, sino un resultado de un diseño colaborativo:

BlueField-4 acelera la gestión y acceso a los datos de contexto en hardware, reduciendo transferencias y costos del sistema;

Spectrum-X Ethernet proporciona una red de alto rendimiento, soportando compartición de datos rápida basada en RDMA;

Componentes de software como DOCA, NIXL y Dynamo optimizan la programación, reducen la latencia y aumentan el rendimiento general del sistema.

Podemos entender que esta plataforma extiende los datos de contexto, que antes solo cabían en la memoria GPU, a una “capa de memoria” independiente, rápida y compartible. Por un lado, libera la carga en la GPU, y por otro, permite compartir rápidamente estos datos entre múltiples nodos y agentes de IA.

En términos de resultados prácticos, Nvidia indica que en escenarios específicos, este método puede aumentar hasta 5 veces la cantidad de tokens procesados por segundo, además de optimizar la eficiencia energética a niveles similares.

Huang Renxun enfatizó varias veces en la presentación que la IA está evolucionando de “chatbots de diálogo único” a verdaderos sistemas de colaboración inteligente: necesitan entender el mundo real, razonar continuamente, usar herramientas para completar tareas y mantener memoria a corto y largo plazo. Esa es la característica central de la IA agente. La plataforma de memoria de contexto de inferencia está diseñada para este tipo de IA que opera a largo plazo, pensando repetidamente, expandiendo la capacidad de contexto y acelerando la compartición entre nodos, haciendo que las conversaciones múltiples y la colaboración entre múltiples agentes sean más estables y no “se vuelvan más lentas con el tiempo”.

03

Nueva generación de DGX SuperPOD: 576 GPU trabajando en conjunto

En este CES, Nvidia anunció la nueva generación de DGX SuperPOD basada en la arquitectura Rubin, que extiende Rubin desde un solo chasis a toda una solución de centro de datos completo.

¿Qué es DGX SuperPOD?

Si Rubin NVL72 es un “super chasis” con 72 GPU, entonces DGX SuperPOD es la conexión de varios de estos chasis para formar un clúster de cálculo de IA a mayor escala. La versión presentada consiste en 8 chasis Vera Rubin NVL72, lo que equivale a 576 GPU trabajando en conjunto.

A medida que las tareas de IA continúan creciendo en escala, 576 GPU en un solo chasis pueden no ser suficientes. Por ejemplo, para entrenar modelos de escala ultra grande, atender miles de agentes inteligentes, o manejar tareas complejas con millones de tokens de contexto. En estos casos, se necesitan múltiples chasis trabajando en conjunto, y DGX SuperPOD es la solución estandarizada para estos escenarios.

Para empresas y proveedores de nube, DGX SuperPOD ofrece una infraestructura de IA a gran escala “lista para usar”. Sin necesidad de investigar cómo conectar cientos de GPU, configurar redes o gestionar almacenamiento.

Los cinco componentes clave de la nueva generación de DGX SuperPOD:

○8 chasis Vera Rubin NVL72 - núcleo de capacidad de cálculo, cada uno con 72 GPU, total 576 GPU;

○Red de expansión NVLink 6 - permite que las 576 GPU en estos 8 chasis trabajen en conjunto como un “super GPU”;

○Red Ethernet Spectrum-X - conecta diferentes SuperPOD y también conecta a almacenamiento y redes externas;

○Plataforma de memoria de contexto de inferencia - para tareas de inferencia prolongada, proporciona almacenamiento compartido de datos de contexto;

○Software Nvidia Mission Control - gestiona la programación, monitoreo y optimización de todo el sistema.

Esta actualización centra la base del SuperPOD en el sistema NVL72, cada uno de los cuales es una supercomputadora de IA completa, con 72 GPU Rubin conectadas mediante NVLink 6, capaz de realizar tareas de inferencia y entrenamiento a gran escala en un solo chasis. La nueva DGX SuperPOD combina varias de estas unidades en un sistema de clúster que puede operar a largo plazo.

Al escalar de “un solo chasis” a “múltiples chasis”, surge un nuevo cuello de botella: ¿cómo transferir datos masivos de manera estable y eficiente entre chasis? Para ello, Nvidia también anunció en CES un nuevo conmutador Ethernet basado en Spectrum-6, con la tecnología de “encapsulado óptico compartido” (CPO).

En términos simples, esto consiste en encapsular directamente los módulos ópticos en el chip de conmutación, acortando la distancia de transmisión de señal de metros a milímetros, reduciendo consumo y latencia, y mejorando la estabilidad general del sistema.

04 Ecosistema de código abierto de Nvidia para IA: de datos a código completo

En este CES, Huang Renxun anunció la expansión de su ecosistema de modelos de código abierto (Open Model Universe), con una serie de modelos, conjuntos de datos, bibliotecas de código y herramientas nuevas y actualizadas. Este ecosistema cubre seis grandes áreas: IA biomédica (Clara), simulación física de IA (Earth-2), IA agente (Nemotron), IA física (Cosmos), robótica (GR00T) y conducción autónoma (Alpamayo).

Entrenar un modelo de IA requiere no solo potencia de cálculo, sino también conjuntos de datos de alta calidad, modelos preentrenados, código de entrenamiento, herramientas de evaluación y toda una infraestructura. Para la mayoría de empresas e instituciones de investigación, construir todo esto desde cero lleva mucho tiempo.

Específicamente, Nvidia ha abierto contenido en seis niveles: plataformas de cálculo (DGX, HGX, etc.), conjuntos de datos de entrenamiento en diferentes áreas, modelos base preentrenados, bibliotecas de código para inferencia y entrenamiento, scripts completos de flujo de entrenamiento, y plantillas de soluciones end-to-end.

La serie Nemotron es el foco de esta actualización, cubriendo cuatro áreas de aplicación.

En inferencia, incluye modelos compactos como Nemotron 3 Nano y Nemotron 2 Nano VL, además de herramientas de entrenamiento de refuerzo como NeMo RL y NeMo Gym. En RAG (recuperación aumentada por generación), ofrece Nemotron Embed VL (modelo de incrustación vectorial), Nemotron Rerank VL (modelo de reordenamiento), conjuntos de datos relacionados y la biblioteca NeMo Retriever. En seguridad, cuenta con Nemotron Content Safety y conjuntos de datos asociados, además de la biblioteca NeMo Guardrails.

En reconocimiento de voz, incluye Nemotron ASR (reconocimiento automático de voz), el conjunto de datos de voz Granary y la biblioteca NeMo para procesamiento de voz. Esto significa que las empresas que quieran crear un sistema de atención al cliente con RAG no necesitan entrenar sus propios modelos de incrustación y reordenamiento, sino que pueden usar directamente el código ya entrenado y abierto por Nvidia.

05 IA física, hacia la comercialización

El campo de IA física también ha visto actualizaciones de modelos: Cosmos, para entender y generar videos del mundo físico; Isaac GR00T, un modelo base universal para robots; y Alpamayo, un modelo de visión-lenguaje-acción para conducción autónoma.

Huang Renxun afirmó en CES que el “momento ChatGPT” de la IA física está cerca, pero también enfrenta muchos desafíos: el mundo físico es demasiado complejo y cambiante, la recopilación de datos reales es lenta y costosa, y nunca es suficiente.

¿Y qué hacer? La síntesis de datos es una vía. Por eso Nvidia lanzó Cosmos.

Este es un modelo base de IA física de código abierto, entrenado con una gran cantidad de videos, datos reales de conducción y robots, y simulaciones 3D. Puede entender cómo funciona el mundo, relacionar lenguaje, imágenes, 3D y acciones.

Huang Renxun dijo que Cosmos puede realizar muchas habilidades de IA física, como generar contenido, razonar, predecir trayectorias (incluso con solo una imagen). Puede generar videos realistas a partir de escenas 3D, crear movimientos que cumplen con las leyes físicas a partir de datos de conducción, e incluso generar panorámicas a partir de simuladores, múltiples cámaras o descripciones en texto. Incluso escenarios raros pueden ser recreados.

También presentó oficialmente Alpamayo, una herramienta de código abierto para conducción autónoma, y el primer modelo de inferencia de visión-lenguaje-acción (VLA) de código abierto. A diferencia de versiones anteriores que solo liberaban el código, Nvidia ahora comparte recursos completos desde datos hasta despliegue.

La mayor innovación de Alpamayo es que es un modelo “de inferencia” para conducción autónoma. Los sistemas tradicionales siguen una línea de “percepción-plan-control”: frenan ante semáforos rojos, reducen velocidad ante peatones, siguen reglas predefinidas. Alpamayo introduce la capacidad de “razonar”, entender relaciones causales en escenarios complejos, predecir intenciones de otros vehículos y peatones, e incluso tomar decisiones que requieren múltiples pasos de pensamiento.

Por ejemplo, en un cruce, no solo reconoce “hay un coche adelante”, sino que puede razonar “ese coche probablemente va a girar a la izquierda, así que debería esperar a que pase primero”. Esa capacidad eleva la conducción autónoma de “seguir reglas” a “pensar como una persona”.

Huang Renxun anunció que el sistema Nvidia DRIVE entra en fase de producción en serie, con el primer vehículo siendo el nuevo Mercedes-Benz CLA, que estará en las calles de EE. UU. en 2026. Este coche tendrá un sistema de conducción automática L2++ con arquitectura híbrida de “modelo de IA de extremo a extremo + línea de producción tradicional”.

En el campo de robótica también hay avances sustanciales.

Huang Renxun mencionó que empresas líderes en robótica como Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics y XRlabs están desarrollando productos basados en la plataforma Isaac de Nvidia y el modelo base GR00T, en áreas que van desde robots industriales, robots quirúrgicos, robots humanoides hasta robots de consumo.

En la conferencia, Huang Renxun estuvo rodeado de robots de diferentes formas y usos, exhibidos en un escenario escalonado: desde robots humanoides, robots bípedos y de ruedas, hasta brazos mecánicos industriales, maquinaria de construcción, drones y equipos de asistencia quirúrgica, formando un “mapa ecológico de robots”.

Desde aplicaciones de IA física hasta la plataforma de cálculo RubinAI, pasando por plataformas de memoria de contexto de inferencia y el ecosistema de IA de código abierto.

Las acciones que Nvidia mostró en CES conforman la narrativa de su infraestructura de IA para la era de la inferencia. Como ha repetido Huang Renxun, cuando la IA física necesita pensar continuamente, operar a largo plazo y realmente entrar en el mundo real, la cuestión ya no es solo si hay suficiente potencia de cálculo, sino quién puede realmente montar todo el sistema.

En CES 2026, Nvidia ya ha presentado una respuesta.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)