扫码下载 APP
qrCode
更多下载方式
今天不再提醒

谷歌DeepMind的新AI代理像人类一样学习、适应和玩游戏

简而言之

  • 该系统使用了谷歌的Gemini模型来推理目标,解释其计划,并在不熟悉的游戏中行动。
  • SIMA 2通过自主游戏学习了新技能,并适应了由Genie 3刚刚创造的世界。
  • DeepMind计划为开发者和学者提供有限的研究预览。

Decrypt的艺术、时尚和娱乐中心。


深入了解 SCENE

谷歌DeepMind于周四推出了SIMA 2——一款新的人工智能代理,该公司声称它在虚拟世界中表现得像一个“伴侣”。随着SIMA 2的发布,DeepMind旨在超越简单的屏幕操作,朝着能够进行计划、自我解释和通过经验学习的人工智能发展。

"这是朝着人工通用智能(AGI)迈出的重要一步,对未来的机器人技术和人工智能具身化有重要影响,"该公司在其网站上表示。

SIMA的第一个版本(可扩展可指令多世界代理)于2024年3月发布,通过观察屏幕并使用虚拟键盘和鼠标控制学习了数百个基本技能。谷歌表示,新版本的SIMA将事情提升到一个新水平,让AI能够自主思考。

SIMA 2 是我们最强大的虚拟 3D 世界 AI 代理。👾🌐

由Gemini驱动,它不仅仅是遵循基本指令,还能在交互环境中进行思考、理解和采取行动——这意味着你可以通过文本、语音,甚至图像与它对话。以下是如何 🧵 pic.twitter.com/DuVWGJXW7W

— 谷歌深度思维 (@GoogleDeepMind) 2025年11月13日

<br>

“SIMA 2 是我们最强大的虚拟 3D 世界 AI 代理,” 谷歌 DeepMind 在 X 上写道。“由 Gemini 驱动,它不仅仅是执行基本指令,还能在交互环境中进行思考、理解和采取行动——这意味着你可以通过文本、语音甚至图像与它交谈。”

通过使用Gemini AI模型,谷歌表示SIMA可以解释高级目标,讨论它打算采取的步骤,并在游戏中进行协作,达到原系统无法达到的推理水平。

DeepMind报告了在虚拟环境中更强的泛化能力,并且SIMA 2完成了更长、更复杂的任务,其中包括逻辑提示、屏幕上绘制的草图和表情符号。

“由于这一能力,SIMA 2 在广泛任务上的表现显著接近人类玩家,” 谷歌写道,并指出 SIMA 2 的任务完成率为 65%,而 SIMA 1 为 31%。

该系统还解读指令并在由去年的另一个DeepMind项目Genie 3生成的全新3D世界中行动,该项目从单个图像或文本提示创建互动环境。SIMA 2自我定位,理解目标,并在它在测试前几分钟才遇到的世界中采取有意义的行动。

“SIMA 2 现在在执行详细指令方面更出色,即使是在它从未见过的世界里,” 谷歌写道。“它可以将一个游戏中学到的概念,如 '挖矿',转移到另一个游戏中的 '收获',—将相似任务之间的点连接起来。”

在学习了人类的示范后,研究人员表示,代理切换到了自我导向的游戏,利用试错法和Gemini生成的反馈来创建新的体验数据,包括一个训练循环,其中SIMA 2生成任务,尝试这些任务,然后将自己的轨迹数据反馈到模型的下一个版本中。

虽然谷歌称赞SIMA 2是人工智能的一次进步,但研究也指出了仍需解决的差距,包括在处理非常长的多步骤任务时遇到困难、在有限的记忆窗口内工作,以及面临3D AI系统常见的视觉解读挑战。

尽管如此,DeepMind表示,该平台作为一个测试平台,可以最终将技能迁移到机器人技术和导航中。

"我们的SIMA 2研究为机器人应用提供了一条坚实的道路,并向现实世界的AGI迈出了又一步,"它说。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)