谷歌DeepMind的新AI代理像人类一样学习、适应和玩游戏

2025-11-13 23:27:00

深入了解 SCENE

谷歌DeepMind于周四推出了SIMA 2——一款新的人工智能代理，该公司声称它在虚拟世界中表现得像一个“伴侣”。随着SIMA 2的发布，DeepMind旨在超越简单的屏幕操作，朝着能够进行计划、自我解释和通过经验学习的人工智能发展。

"这是朝着人工通用智能(AGI)迈出的重要一步，对未来的机器人技术和人工智能具身化有重要影响，"该公司在其网站上表示。

SIMA的第一个版本(可扩展可指令多世界代理)于2024年3月发布，通过观察屏幕并使用虚拟键盘和鼠标控制学习了数百个基本技能。谷歌表示，新版本的SIMA将事情提升到一个新水平，让AI能够自主思考。

SIMA 2 是我们最强大的虚拟 3D 世界 AI 代理。👾🌐

由Gemini驱动，它不仅仅是遵循基本指令，还能在交互环境中进行思考、理解和采取行动——这意味着你可以通过文本、语音，甚至图像与它对话。以下是如何 🧵 pic.twitter.com/DuVWGJXW7W

— 谷歌深度思维 (@GoogleDeepMind) 2025年11月13日

<br>

“SIMA 2 是我们最强大的虚拟 3D 世界 AI 代理，” 谷歌 DeepMind 在 X 上写道。“由 Gemini 驱动，它不仅仅是执行基本指令，还能在交互环境中进行思考、理解和采取行动——这意味着你可以通过文本、语音甚至图像与它交谈。”

通过使用Gemini AI模型，谷歌表示SIMA可以解释高级目标，讨论它打算采取的步骤，并在游戏中进行协作，达到原系统无法达到的推理水平。

DeepMind报告了在虚拟环境中更强的泛化能力，并且SIMA 2完成了更长、更复杂的任务，其中包括逻辑提示、屏幕上绘制的草图和表情符号。

“由于这一能力，SIMA 2 在广泛任务上的表现显著接近人类玩家，” 谷歌写道，并指出 SIMA 2 的任务完成率为 65%，而 SIMA 1 为 31%。

该系统还解读指令并在由去年的另一个DeepMind项目Genie 3生成的全新3D世界中行动，该项目从单个图像或文本提示创建互动环境。SIMA 2自我定位，理解目标，并在它在测试前几分钟才遇到的世界中采取有意义的行动。

“SIMA 2 现在在执行详细指令方面更出色，即使是在它从未见过的世界里，” 谷歌写道。“它可以将一个游戏中学到的概念，如 '挖矿'，转移到另一个游戏中的 '收获'，—将相似任务之间的点连接起来。”

在学习了人类的示范后，研究人员表示，代理切换到了自我导向的游戏，利用试错法和Gemini生成的反馈来创建新的体验数据，包括一个训练循环，其中SIMA 2生成任务，尝试这些任务，然后将自己的轨迹数据反馈到模型的下一个版本中。

虽然谷歌称赞SIMA 2是人工智能的一次进步，但研究也指出了仍需解决的差距，包括在处理非常长的多步骤任务时遇到困难、在有限的记忆窗口内工作，以及面临3D AI系统常见的视觉解读挑战。

尽管如此，DeepMind表示，该平台作为一个测试平台，可以最终将技能迁移到机器人技术和导航中。

"我们的SIMA 2研究为机器人应用提供了一条坚实的道路，并向现实世界的AGI迈出了又一步，"它说。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论