首页 今日新闻文章正文

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

今日新闻 2025年09月25日 00:13 0 aa
外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

文|馒头

编辑|江娱迟

当下具身智能是AI领域的研究热点,但研究者常陷入困惑:哪些模型综合能力最强?如何客观评价能力边界?未来该向何方向突破?

近日国内外10余家顶尖院校及研究机构联合发布的EmbodiedArena,为这些问题提供了系统性解决方案。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

真正的大脑

EmbodiedArena并非普通评测工具,而是全面、统一且持续进化的具身AI评测平台,聚焦通用具身大脑能力,涵盖22+项基准测试与30+个代表性模型,构建了完备的综合评估体系,并提炼七大关键技术洞察,为具身模型发展指明方向。

它首先破解了具身AI的三大核心挑战:能力定义模糊、评测标准缺失、数据获取困难。

对应对策清晰,构建系统性具身大脑能力分类、打造统一评测基础设施、设计LLM驱动的自动化数据生成框架,逐一化解困境。

为全方位评估具身智能,平台覆盖三大核心任务类型:具身问答、具身导航、具身任务规划。

更关键的是,它建立了业界首个系统性具身AI大脑能力分类法,包含7大核心能力、25个细分维度,这套分类法既为基准测试提供统一映射标准,也为研究画出技术路线图。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

平台采用模块化设计,形成“数据生成-模型评测”闭环:支持HuggingFace、ModelScope及API等多种模型接入,已集成30+先进模型。

打造跨基准、跨模型的统一评测管线,对齐数据与接入方式,统一呈现对比结果。

依托LLM实现自动化数据生成,保障数据多样性与时效性;实时排行榜从基准数据集、具身能力双视角对比,每两周更新,指引研究方向。

传统具身评测基准存在数据分布固定、扩展性差的问题,EmbodiedArena的LLM驱动自动数据生成框架可解决:通过定义房间类型、划分功能分区、优化物体布局生成适配场景;

还可以构建能力导向的数据演进机制,从场景、语言、任务复杂度打造难度天梯,并根据模型表现动态调整数据,抽样检测保障质量,让评测集始终具挑战性。​

对30+模型在22+基准的测试,揭示了具身AI的七大关键现状。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

七个好处

通用多模态基础模型,凭千亿级参数与海量预训练数据,多基准测试领先专用具身模型10%-20%。

但专用模型在特定任务反超,如RoboBrain2.0在Where2Place准确率73.59%(GPT-o3为33.46%),StreamVLN在VLN任务成功率54.90%(Claude-3.7-Sonnet为18.93%),不过专用模型易过拟合,如何平衡针对性训练与通用性成难题。

基础具身能力制约高阶推理,两者斯皮尔曼等级相关系数达0.80,高阶推理平均得分33.64(基础能力38.84),其中空间感知仅28.62,是明显短板。

基础能力是高阶推理的根基,如何引导研究重视基础能力提升,值得思考。​

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

任务导向智能体框架(通用模型集成于专用框架)比端到端框架(通用模型直接应用)更易转化能力:前者导航、任务规划成功率分别36.21%、40.08%,后者导航仅5.80%。

但专用框架需针对性设计,优先优化通用模型适配性还是打造专用框架,需两者结合探索。​

当前具身任务无明显ScalingLaw:部分模型(如InternVL3)增参性能提升,但RoboBrain2.0-7B导航表现优于32B版本。

增具身数据虽提特定任务表现,却易过拟合(如Embodied-R1、SpaceR未全面提升)。

这可能因数据质量不足、模型架构与训练方式不统一,未来或需先统一评测与训练范式。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

RFT训练范式成效显著:GPT-o3、SpaceR等借RFT刷新多基准纪录,Embodied-R1经RFT后分布外基准性能提升,但RFT泛化边界仍需验证,能否成主流方向待探索。

3D信息处理中,原生3D方法面临多模态对齐难题,2D-3D融合框架表现更优:LEO(原生3D)在3D具身问答得48.48分,GPT4Scene-HDM、LL3DA(融合框架)分别得62.11、62.90分。融合框架是过渡方案,长远需原生3D基座模型,当下或需并行推进两者。​

具身指向可通过锚定机制(关联语言与物理坐标)提升能力,但在复杂指令、动态场景下性能下滑,或因模型过拟合简单模式,如何让模型掌握核心锚定逻辑,是关键挑战。​

为推动领域发展,EmbodiedArena采用开放式设计:欢迎全球研究者提交模型(含开源与闭源)、集成新基准,平台提供技术支持;排行榜每两周更新,实时反映进展。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

结语​

EmbodiedArena的出现恰逢其时,它不仅以统一标准为当前具身AI模型提供了客观评估,更借七大关键发现为研究指明方向。

随着更多模型与基准加入,它将成为具身AI研究的“指南针”,助力打造真正理解并改变物理世界的智能体。

外国想垄断AI测试?中国牵头10国机构,联手击破西方霸权

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap