El sistema utilizó el modelo Gemini de Google para razonar sobre los objetivos, explicar sus planes y actuar en juegos desconocidos.
SIMA 2 aprendió nuevas habilidades a través del juego autodirigido y se adaptó a mundos creados momentos antes por Genie 3.
DeepMind planeó un avance de investigación limitado para desarrolladores y académicos.
El Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Google DeepMind presentó SIMA 2 el jueves—un nuevo agente de IA que la compañía afirma se comporta como un “compañero” dentro de mundos virtuales. Con el lanzamiento de SIMA 2, DeepMind busca avanzar más allá de simples acciones en pantalla y moverse hacia una IA que pueda planificar, explicarse y aprender a través de la experiencia.
“Este es un paso significativo en la dirección de la Inteligencia General Artificial (AGI), con importantes implicaciones para el futuro de la robótica y la incorporación de IA en general,” dijo la empresa en su sitio web.
La primera versión de SIMA (Agente Multiworld Instructable Escalable), lanzada en marzo de 2024, aprendió cientos de habilidades básicas al observar la pantalla y utilizando controles de teclado y ratón virtuales. La nueva versión de SIMA, dijo Google, lleva las cosas un paso más allá al permitir que la IA piense por sí misma.
SIMA 2 es nuestro agente de IA más capaz para mundos 3D virtuales. 👾🌐
Impulsado por Gemini, va más allá de seguir instrucciones básicas para pensar, entender y tomar acciones en entornos interactivos, lo que significa que puedes hablarle a través de texto, voz o incluso imágenes. Así es como 🧵 pic.twitter.com/DuVWGJXW7W
— Google DeepMind (@GoogleDeepMind) 13 de noviembre de 2025
<br>
“SIMA 2 es nuestro agente de IA más capaz para mundos virtuales en 3D,” escribió Google DeepMind en X. “Impulsado por Gemini, va más allá de seguir instrucciones básicas para pensar, entender y tomar acciones en entornos interactivos, lo que significa que puedes hablarle a través de texto, voz o incluso imágenes.”
Al utilizar el modelo de IA Gemini, Google dijo que SIMA puede interpretar objetivos de alto nivel, hablar sobre los pasos que pretende seguir y colaborar dentro de los juegos con un nivel de razonamiento que el sistema original no podía alcanzar.
DeepMind informó una mejor generalización en entornos virtuales, y que SIMA 2 completó tareas más largas y complejas, que incluían indicaciones lógicas, bocetos dibujados en la pantalla y emojis.
“Como resultado de esta capacidad, el rendimiento de SIMA 2 está significativamente más cerca del de un jugador humano en una amplia variedad de tareas”, escribió Google, señalando que SIMA 2 tenía una tasa de finalización de tareas del 65%, en comparación con el 31% de SIMA 1.
El sistema también interpretó instrucciones y actuó dentro de mundos 3D completamente nuevos generados por Genie 3, otro proyecto de DeepMind lanzado el año pasado que crea entornos interactivos a partir de una sola imagen o un aviso de texto. SIMA 2 se orientó, entendió objetivos y tomó acciones significativas en mundos que nunca había encontrado hasta momentos antes de la prueba.
“SIMA 2 ahora es mucho mejor para llevar a cabo instrucciones detalladas, incluso en mundos que nunca ha visto antes”, escribió Google. “Puede transferir conceptos aprendidos como 'minería' en un juego y aplicarlo a 'cosecha' en otro—conectando los puntos entre tareas similares.”
Después de aprender de las demostraciones humanas, los investigadores dijeron que el agente cambió a un juego autodirigido, utilizando prueba y error y retroalimentación generada por Gemini para crear nuevos datos de experiencia, incluyendo un ciclo de entrenamiento donde SIMA 2 generó tareas, las intentó y luego alimentó sus propios datos de trayectoria de vuelta a la siguiente versión del modelo.
Mientras Google aclamaba a SIMA 2 como un avance para la inteligencia artificial, la investigación también identificó brechas que aún deben ser abordadas, incluyendo dificultades con tareas muy largas y de múltiples pasos, trabajar dentro de una ventana de memoria limitada y enfrentar desafíos de interpretación visual comunes a los sistemas de IA en 3D.
Aun así, DeepMind dijo que la plataforma sirvió como un banco de pruebas para habilidades que eventualmente podrían migrar a la robótica y la navegación.
“Nuestra investigación SIMA 2 ofrece un camino sólido hacia aplicaciones en robótica y otro paso hacia la AGI en el mundo real,” dijo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El nuevo agente de IA de Google DeepMind aprende, se adapta y juega juegos como un humano.
En breve
El Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Google DeepMind presentó SIMA 2 el jueves—un nuevo agente de IA que la compañía afirma se comporta como un “compañero” dentro de mundos virtuales. Con el lanzamiento de SIMA 2, DeepMind busca avanzar más allá de simples acciones en pantalla y moverse hacia una IA que pueda planificar, explicarse y aprender a través de la experiencia.
“Este es un paso significativo en la dirección de la Inteligencia General Artificial (AGI), con importantes implicaciones para el futuro de la robótica y la incorporación de IA en general,” dijo la empresa en su sitio web.
La primera versión de SIMA (Agente Multiworld Instructable Escalable), lanzada en marzo de 2024, aprendió cientos de habilidades básicas al observar la pantalla y utilizando controles de teclado y ratón virtuales. La nueva versión de SIMA, dijo Google, lleva las cosas un paso más allá al permitir que la IA piense por sí misma.
— Google DeepMind (@GoogleDeepMind) 13 de noviembre de 2025
<br>
“SIMA 2 es nuestro agente de IA más capaz para mundos virtuales en 3D,” escribió Google DeepMind en X. “Impulsado por Gemini, va más allá de seguir instrucciones básicas para pensar, entender y tomar acciones en entornos interactivos, lo que significa que puedes hablarle a través de texto, voz o incluso imágenes.”
Al utilizar el modelo de IA Gemini, Google dijo que SIMA puede interpretar objetivos de alto nivel, hablar sobre los pasos que pretende seguir y colaborar dentro de los juegos con un nivel de razonamiento que el sistema original no podía alcanzar.
DeepMind informó una mejor generalización en entornos virtuales, y que SIMA 2 completó tareas más largas y complejas, que incluían indicaciones lógicas, bocetos dibujados en la pantalla y emojis.
“Como resultado de esta capacidad, el rendimiento de SIMA 2 está significativamente más cerca del de un jugador humano en una amplia variedad de tareas”, escribió Google, señalando que SIMA 2 tenía una tasa de finalización de tareas del 65%, en comparación con el 31% de SIMA 1.
El sistema también interpretó instrucciones y actuó dentro de mundos 3D completamente nuevos generados por Genie 3, otro proyecto de DeepMind lanzado el año pasado que crea entornos interactivos a partir de una sola imagen o un aviso de texto. SIMA 2 se orientó, entendió objetivos y tomó acciones significativas en mundos que nunca había encontrado hasta momentos antes de la prueba.
“SIMA 2 ahora es mucho mejor para llevar a cabo instrucciones detalladas, incluso en mundos que nunca ha visto antes”, escribió Google. “Puede transferir conceptos aprendidos como 'minería' en un juego y aplicarlo a 'cosecha' en otro—conectando los puntos entre tareas similares.”
Después de aprender de las demostraciones humanas, los investigadores dijeron que el agente cambió a un juego autodirigido, utilizando prueba y error y retroalimentación generada por Gemini para crear nuevos datos de experiencia, incluyendo un ciclo de entrenamiento donde SIMA 2 generó tareas, las intentó y luego alimentó sus propios datos de trayectoria de vuelta a la siguiente versión del modelo.
Mientras Google aclamaba a SIMA 2 como un avance para la inteligencia artificial, la investigación también identificó brechas que aún deben ser abordadas, incluyendo dificultades con tareas muy largas y de múltiples pasos, trabajar dentro de una ventana de memoria limitada y enfrentar desafíos de interpretación visual comunes a los sistemas de IA en 3D.
Aun así, DeepMind dijo que la plataforma sirvió como un banco de pruebas para habilidades que eventualmente podrían migrar a la robótica y la navegación.
“Nuestra investigación SIMA 2 ofrece un camino sólido hacia aplicaciones en robótica y otro paso hacia la AGI en el mundo real,” dijo.