文|馒头编辑|江娱迟当下具身智能是AI领域的研究热点,但研究者常陷入困惑:哪些模型综合能力最强?如何客观评价能力边界?未来该向何方向突破?近日国内外1...
2025-09-25 0
文|馒头
编辑|江娱迟
当下具身智能是AI领域的研究热点,但研究者常陷入困惑:哪些模型综合能力最强?如何客观评价能力边界?未来该向何方向突破?
近日国内外10余家顶尖院校及研究机构联合发布的EmbodiedArena,为这些问题提供了系统性解决方案。
EmbodiedArena并非普通评测工具,而是全面、统一且持续进化的具身AI评测平台,聚焦通用具身大脑能力,涵盖22+项基准测试与30+个代表性模型,构建了完备的综合评估体系,并提炼七大关键技术洞察,为具身模型发展指明方向。
它首先破解了具身AI的三大核心挑战:能力定义模糊、评测标准缺失、数据获取困难。
对应对策清晰,构建系统性具身大脑能力分类、打造统一评测基础设施、设计LLM驱动的自动化数据生成框架,逐一化解困境。
为全方位评估具身智能,平台覆盖三大核心任务类型:具身问答、具身导航、具身任务规划。
更关键的是,它建立了业界首个系统性具身AI大脑能力分类法,包含7大核心能力、25个细分维度,这套分类法既为基准测试提供统一映射标准,也为研究画出技术路线图。
平台采用模块化设计,形成“数据生成-模型评测”闭环:支持HuggingFace、ModelScope及API等多种模型接入,已集成30+先进模型。
打造跨基准、跨模型的统一评测管线,对齐数据与接入方式,统一呈现对比结果。
依托LLM实现自动化数据生成,保障数据多样性与时效性;实时排行榜从基准数据集、具身能力双视角对比,每两周更新,指引研究方向。
传统具身评测基准存在数据分布固定、扩展性差的问题,EmbodiedArena的LLM驱动自动数据生成框架可解决:通过定义房间类型、划分功能分区、优化物体布局生成适配场景;
还可以构建能力导向的数据演进机制,从场景、语言、任务复杂度打造难度天梯,并根据模型表现动态调整数据,抽样检测保障质量,让评测集始终具挑战性。
对30+模型在22+基准的测试,揭示了具身AI的七大关键现状。
通用多模态基础模型,凭千亿级参数与海量预训练数据,多基准测试领先专用具身模型10%-20%。
但专用模型在特定任务反超,如RoboBrain2.0在Where2Place准确率73.59%(GPT-o3为33.46%),StreamVLN在VLN任务成功率54.90%(Claude-3.7-Sonnet为18.93%),不过专用模型易过拟合,如何平衡针对性训练与通用性成难题。
基础具身能力制约高阶推理,两者斯皮尔曼等级相关系数达0.80,高阶推理平均得分33.64(基础能力38.84),其中空间感知仅28.62,是明显短板。
基础能力是高阶推理的根基,如何引导研究重视基础能力提升,值得思考。
任务导向智能体框架(通用模型集成于专用框架)比端到端框架(通用模型直接应用)更易转化能力:前者导航、任务规划成功率分别36.21%、40.08%,后者导航仅5.80%。
但专用框架需针对性设计,优先优化通用模型适配性还是打造专用框架,需两者结合探索。
当前具身任务无明显ScalingLaw:部分模型(如InternVL3)增参性能提升,但RoboBrain2.0-7B导航表现优于32B版本。
增具身数据虽提特定任务表现,却易过拟合(如Embodied-R1、SpaceR未全面提升)。
这可能因数据质量不足、模型架构与训练方式不统一,未来或需先统一评测与训练范式。
RFT训练范式成效显著:GPT-o3、SpaceR等借RFT刷新多基准纪录,Embodied-R1经RFT后分布外基准性能提升,但RFT泛化边界仍需验证,能否成主流方向待探索。
3D信息处理中,原生3D方法面临多模态对齐难题,2D-3D融合框架表现更优:LEO(原生3D)在3D具身问答得48.48分,GPT4Scene-HDM、LL3DA(融合框架)分别得62.11、62.90分。融合框架是过渡方案,长远需原生3D基座模型,当下或需并行推进两者。
具身指向可通过锚定机制(关联语言与物理坐标)提升能力,但在复杂指令、动态场景下性能下滑,或因模型过拟合简单模式,如何让模型掌握核心锚定逻辑,是关键挑战。
为推动领域发展,EmbodiedArena采用开放式设计:欢迎全球研究者提交模型(含开源与闭源)、集成新基准,平台提供技术支持;排行榜每两周更新,实时反映进展。
EmbodiedArena的出现恰逢其时,它不仅以统一标准为当前具身AI模型提供了客观评估,更借七大关键发现为研究指明方向。
随着更多模型与基准加入,它将成为具身AI研究的“指南针”,助力打造真正理解并改变物理世界的智能体。
相关文章
文|馒头编辑|江娱迟当下具身智能是AI领域的研究热点,但研究者常陷入困惑:哪些模型综合能力最强?如何客观评价能力边界?未来该向何方向突破?近日国内外1...
2025-09-25 0
9月17日,第十一届亚洲教育装备博览会暨人工智能教育大会(WORLDDIDAC ASIA 2025,以下简称“亚教展”)在杭州瞩目开启。作为亚洲地区极...
2025-09-24 0
【V观财报|华力创通:电动自行车北斗终端芯片产品已完成样机开发】华力创通9月24日在投资者互动平台回复提问表示,在北斗方面,公司基于自主研制的北斗基带...
2025-09-24 1
深圳商报·读创客户端记者 郑恺 通讯员 许雅琪近日,南山区西丽街道阳光社区组织30名青少年走进辖区高科技企业雷曼光电,开启了一场别开生面的科技探索之旅...
2025-09-24 2
今年是高通成立40周年,也是高通根植中国发展的第30年,在这一具有里程碑意义的时刻,“2025骁龙峰会·中国”在北京正式召开,高通选择在中国同步举办年...
2025-09-24 1
AI生成内容强标识落地,手动录入AI文本能算原创吗?9月1日,国家网信办等四部门联合发布的《人工智能生成合成内容标识办法》正式实施,一个新的时代来了:...
2025-09-24 2
近日,由华润燃气内江区域公司秦剑、邱建、马玺、房光平、田杰、罗亚川、龙海红、高盒甜、谭小强、吕崚祥等同志联合中国石油大学(华东)石油工程学院博士生周贤...
2025-09-24 1
近日,由中国联合国教科文组织全国委员会、联合国教科文组织与北京师范大学联合举办的“变革女童和妇女教育,促进包容性可持续发展国际研讨会”在北京师范大学举...
2025-09-24 1
发表评论