外国想垄断AI测试？中国牵头10国机构，联手击破西方霸权

今日新闻 2025年09月25日 00:13 0 aa

文|馒头

编辑|江娱迟

当下具身智能是AI领域的研究热点，但研究者常陷入困惑：哪些模型综合能力最强？如何客观评价能力边界？未来该向何方向突破？

近日国内外10余家顶尖院校及研究机构联合发布的EmbodiedArena，为这些问题提供了系统性解决方案。

真正的大脑

EmbodiedArena并非普通评测工具，而是全面、统一且持续进化的具身AI评测平台，聚焦通用具身大脑能力，涵盖22+项基准测试与30+个代表性模型，构建了完备的综合评估体系，并提炼七大关键技术洞察，为具身模型发展指明方向。

它首先破解了具身AI的三大核心挑战：能力定义模糊、评测标准缺失、数据获取困难。

对应对策清晰，构建系统性具身大脑能力分类、打造统一评测基础设施、设计LLM驱动的自动化数据生成框架，逐一化解困境。

为全方位评估具身智能，平台覆盖三大核心任务类型：具身问答、具身导航、具身任务规划。

更关键的是，它建立了业界首个系统性具身AI大脑能力分类法，包含7大核心能力、25个细分维度，这套分类法既为基准测试提供统一映射标准，也为研究画出技术路线图。

平台采用模块化设计，形成“数据生成-模型评测”闭环：支持HuggingFace、ModelScope及API等多种模型接入，已集成30+先进模型。

打造跨基准、跨模型的统一评测管线，对齐数据与接入方式，统一呈现对比结果。

依托LLM实现自动化数据生成，保障数据多样性与时效性；实时排行榜从基准数据集、具身能力双视角对比，每两周更新，指引研究方向。

传统具身评测基准存在数据分布固定、扩展性差的问题，EmbodiedArena的LLM驱动自动数据生成框架可解决：通过定义房间类型、划分功能分区、优化物体布局生成适配场景；

还可以构建能力导向的数据演进机制，从场景、语言、任务复杂度打造难度天梯，并根据模型表现动态调整数据，抽样检测保障质量，让评测集始终具挑战性。

对30+模型在22+基准的测试，揭示了具身AI的七大关键现状。

七个好处

通用多模态基础模型，凭千亿级参数与海量预训练数据，多基准测试领先专用具身模型10%-20%。

但专用模型在特定任务反超，如RoboBrain2.0在Where2Place准确率73.59%（GPT-o3为33.46%），StreamVLN在VLN任务成功率54.90%（Claude-3.7-Sonnet为18.93%），不过专用模型易过拟合，如何平衡针对性训练与通用性成难题。

基础具身能力制约高阶推理，两者斯皮尔曼等级相关系数达0.80，高阶推理平均得分33.64（基础能力38.84），其中空间感知仅28.62，是明显短板。

基础能力是高阶推理的根基，如何引导研究重视基础能力提升，值得思考。

任务导向智能体框架（通用模型集成于专用框架）比端到端框架（通用模型直接应用）更易转化能力：前者导航、任务规划成功率分别36.21%、40.08%，后者导航仅5.80%。

但专用框架需针对性设计，优先优化通用模型适配性还是打造专用框架，需两者结合探索。

当前具身任务无明显ScalingLaw：部分模型（如InternVL3）增参性能提升，但RoboBrain2.0-7B导航表现优于32B版本。

增具身数据虽提特定任务表现，却易过拟合（如Embodied-R1、SpaceR未全面提升）。

这可能因数据质量不足、模型架构与训练方式不统一，未来或需先统一评测与训练范式。

RFT训练范式成效显著：GPT-o3、SpaceR等借RFT刷新多基准纪录，Embodied-R1经RFT后分布外基准性能提升，但RFT泛化边界仍需验证，能否成主流方向待探索。

3D信息处理中，原生3D方法面临多模态对齐难题，2D-3D融合框架表现更优：LEO（原生3D）在3D具身问答得48.48分，GPT4Scene-HDM、LL3DA（融合框架）分别得62.11、62.90分。融合框架是过渡方案，长远需原生3D基座模型，当下或需并行推进两者。

具身指向可通过锚定机制（关联语言与物理坐标）提升能力，但在复杂指令、动态场景下性能下滑，或因模型过拟合简单模式，如何让模型掌握核心锚定逻辑，是关键挑战。

为推动领域发展，EmbodiedArena采用开放式设计：欢迎全球研究者提交模型（含开源与闭源）、集成新基准，平台提供技术支持；排行榜每两周更新，实时反映进展。

结语

EmbodiedArena的出现恰逢其时，它不仅以统一标准为当前具身AI模型提供了客观评估，更借七大关键发现为研究指明方向。

随着更多模型与基准加入，它将成为具身AI研究的“指南针”，助力打造真正理解并改变物理世界的智能体。

SQD-Mini LED 有多牛？它一举打破了行业十年未破的色域僵局！

阿里巴巴，传来大消息！股价涨超6%！

发表评论

外国想垄断AI测试？中国牵头10国机构，联手击破西方霸权

真正的大脑

七个好处

结语

SQD-Mini LED 有多牛？它一举打破了行业十年未破的色域僵局！

阿里巴巴，传来大消息！股价涨超6%！

热门文章

最新文章

外国想垄断AI测试？中国牵头10国机构，联手击破西方霸权

真正的大脑

七个好处

结语​

SQD-Mini LED 有多牛？它一举打破了行业十年未破的色域僵局！

阿里巴巴，传来大消息！股价涨超6%！

热门文章

最新文章

结语