首页 景点排名文章正文

谷歌正式发布Genie 3,引领世界模型新变革

景点排名 2025年08月08日 03:31 0 aa
🤖 由 文心大模型 生成的文章摘要

前文介绍了谷歌DeepMind

谷歌正式发布Genie 3,引领世界模型新变革

谷歌DeepMind正式发布了其最新一代通用世界模型——Genie 3。这一突破性的成果能够生成前所未有的多样化交互式环境,为世界模型领域带来了重大变革,标志着人工智能技术在模拟和交互领域迈向了新的高度。

Genie 3是首个支持实时交互的世界模型,用户仅需输入文本提示,它便能以每秒20-24帧的速度实时生成可供自由探索的动态世界,并且在720p分辨率下保持数分钟的画面一致性。与前代产品相比,Genie 3实现了质的飞跃,不仅在分辨率和帧率上有了显著提升,达到了实际可用的程度,更将单次交互时长从几十秒大幅延长到数分钟,极大地增强了用户的沉浸式体验。

在DeepMind的研究路线图中,“世界模型”是迈向通用人工智能(AGI)的重要阶梯。通过学习环境的时空动态,世界模型不仅能够预测未来状态,还能评估自身行动的后果。自2023年第一代Genie提出“从互联网视频无监督学习”的思路后,DeepMind持续对其进行迭代。Genie2将场景从二维扩展到浅三维,并支持简单交互;如今的Genie 3则进一步提升分辨率、帧率与交互时长,为“可持续探索的沉浸式世界”奠定了坚实基础。

为了实现Genie 3在可控性和实时交互性方面的高水平表现,谷歌的技术团队攻克了诸多关键技术难题。要实现真正的实时交互,模型必须每秒多次生成帧,以便及时响应不断到来的用户输入。同时,为了让AI生成的世界更具沉浸感,环境在长时间尺度上必须保持物理一致性。尽管面临这一挑战,Genie 3所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。这种长时程的一致性是一种涌现能力,并非被直接编码到模型中,使得Genie 3生成的世界远比过去更加动态和丰富。

除了强大的实时交互和长时程一致性能力,Genie 3还引入了一项名为“可提示的世界事件”的新功能。这一功能允许用户在交互过程中,通过新的文本指令动态地改变世界。例如,用户可以在一个宁静的滑雪场景中输入指令“加入一群鹿”,模型便会实时在环境中生成相应的动态角色;也可以通过指令改变天气、添加物体,甚至召唤出完全不合常理的角色,如“穿着天鹅绒背心的大猩猩”。这种能力极大地增强了交互的自由度和创造性,使得这些AI生成的世界更像一个可以随意修改的“沙盒”,而不仅仅是一个被动探索的环境。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap