金融界2025年8月14日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“画面显示方法和装置、电子设备和存储介质”的专利,公开号C...
2025-08-14 0
物理AI是机器人技术与基础模型结合的快速发展领域,英伟达、谷歌和Meta等公司正在发布研究成果,探索将大语言模型与机器人技术融合。
艾伦人工智能研究所(Ai2)发布了最新研究成果MolmoAct 7B,这是一个全新的开源模型,让机器人能够"在空间中推理",旨在物理AI领域挑战英伟达和谷歌。MolmoAct基于Ai2的开源项目Molmo构建,能够进行三维"思考",同时还发布了其训练数据。该模型采用Apache 2.0许可证,数据集则使用CC BY-4.0许可证。
Ai2将MolmoAct归类为动作推理模型,即基础模型在物理三维空间中对动作进行推理。这意味着MolmoAct能够运用推理能力理解物理世界,规划空间占用方式,然后执行相应动作。
**空间推理的独特优势**
Ai2表示:"与传统的视觉-语言-动作(VLA)模型相比,MolmoAct具备三维空间推理能力。大多数机器人模型都是VLA,无法在空间中思考或推理,但MolmoAct具备这种能力,从架构角度来看更加高效且具有更强的泛化能力。"
由于机器人存在于物理世界中,Ai2声称MolmoAct能帮助机器人感知周围环境并做出更好的交互决策。该公司表示:"MolmoAct可以应用于任何需要机器对物理环境进行推理的场景。我们主要考虑家庭环境,因为那是机器人技术面临的最大挑战,环境不规则且不断变化,但MolmoAct可以应用于任何地方。"
**技术实现原理**
MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token是使用向量量化变分自编码器预训练和提取的,该模型能将视频等数据输入转换为Token。公司表示,这些Token与VLA使用的Token不同,它们不是文本输入。
这些Token使MolmoAct能够获得空间理解能力并编码几何结构,通过它们模型可以估算物体间的距离。一旦获得距离估算,MolmoAct就会预测一系列"图像空间"路径点,即可以设定路径的区域点。之后,模型开始输出具体动作,如将机械臂下降几英寸或伸展等。
Ai2的研究人员表示,他们能够让模型适应不同的具体实现形式(如机械臂或人形机器人),"只需最少的微调"。
**性能表现突出**
Ai2进行的基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。
俄勒冈州立大学工程学院教授Alan Fern表示,Ai2的研究"代表了在增强视觉语言模型用于机器人技术和物理推理方面的自然进展"。虽然不是革命性的,但这是开发更强大的三维物理推理模型的重要一步。
初创公司Gather AI联合创始人Daniel Maturana赞扬了数据的开放性,指出"这是个好消息,因为开发和训练这些模型成本高昂,这为其他学术实验室甚至专业爱好者提供了坚实的基础"。
**物理AI发展趋势**
创造更智能或至少更具空间感知能力的机器人一直是许多开发者和计算机科学家的长期梦想。在大语言模型出现之前,科学家必须编程每一个动作,工作量巨大且机器人动作类型灵活性有限。现在,基于大语言模型的方法允许机器人根据交互对象确定下一步可能的动作。
谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理,确定实现目标所需的动作序列。Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控。Hugging Face发布了299美元的桌面机器人,致力于机器人开发的民主化。英伟达宣称物理AI是下一个重大趋势,发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练。
Fern表示,尽管演示仍然有限,但对物理AI的兴趣正在增加。实现通用物理智能的目标正变得更容易实现,这将消除为机器人单独编程动作的需要。
Q&A
Q1:MolmoAct与传统机器人模型有什么区别?
A:MolmoAct具备三维空间推理能力,而传统的视觉-语言-动作(VLA)模型无法在空间中思考或推理。MolmoAct能够理解物理世界、规划空间占用并执行相应动作,从架构角度来看更加高效且具有更强的泛化能力。
Q2:MolmoAct的技术原理是什么?
A:MolmoAct通过输出"空间定位感知Token"来理解物理世界,这些Token使用向量量化变分自编码器预训练提取。模型能获得空间理解能力并编码几何结构,估算物体间距离,预测路径点,然后输出具体动作指令。
Q3:MolmoAct的性能表现如何?
A:基准测试显示,MolmoAct 7B的任务成功率达到72.1%,超越了谷歌、微软和英伟达的模型。研究人员表示,模型能够适应不同的具体实现形式,如机械臂或人形机器人,只需最少的微调。
相关文章
金融界2025年8月14日消息,国家知识产权局信息显示,苏州元脑智能科技有限公司申请一项名为“画面显示方法和装置、电子设备和存储介质”的专利,公开号C...
2025-08-14 0
金融界2025年8月13日消息,国家知识产权局信息显示,中铁建工集团(陕西)有限公司、中铁建工集团有限公司取得一项名为“一种可调节式铝模板加固装置”的...
2025-08-14 0
物理AI是机器人技术与基础模型结合的快速发展领域,英伟达、谷歌和Meta等公司正在发布研究成果,探索将大语言模型与机器人技术融合。艾伦人工智能研究所(...
2025-08-14 0
继华星光电8.6代印刷OLED产线投资计划浮出水面后,国内另一条高世代OLED生产线迎来关键进展。8月11日,合肥国显科技有限公司(以下简称"合肥国显...
2025-08-14 0
【亿邦原创】8月13日,腾讯发布2025上半年财报,营收3645.26亿元同比增长14%,NON-IFRS净利1385.68亿元同比增长18%。营收增...
2025-08-14 0
证券之星消息,美格智能(002881 08月13日在投资者关系平台上答复投资者关心的问题。投资者提问:请问我们公司技术有应用于机器人机器狗这些方面吗美...
2025-08-14 0
秋天的第一杯奶茶,就是外卖界的双11。既然是双11,那么按照以前的打法,核心词离不开“卷价格”。今年的“秋奶”,仍有平台在价格上做文章。不过美团却没“...
2025-08-14 0
众所周知,在消费电子产品领域,每年、每个季度,甚至是每个月都会诞生大量的新品、新项目。在它们之中,那些叫好又叫座的“成功案例”对于各方来说显然都是最好...
2025-08-14 1
发表评论