10小时训练出的模型夺冠，在IROS亲历一场真机操作决赛

今日快讯 2025年10月25日 02:59 0 admin

完成倒水、叠好衣服、溢出杯子、停止作业、任务失败……10月23日，在智元机器人与OpenDriveLab联合主办的首届 “AgiBot World Challenge@IROS 2025” 国际挑战赛上，不同参赛队伍，在倒水、叠衣、摆货、开关微波炉、分拣产品、打包的真机决赛中展示各自的极致表现。

据了解，本次赛事设置Manipulation（操作）与World Model（世界模型）两大赛道，总奖池高达56万美元，最终吸引全球5大洲、23个国家和地区的431支顶尖战队参赛，覆盖高校、研究机构等各类创新主体。

最终，11支队伍晋级线下Manipulation对决。来自清华&上海AI La的AIR-DREAM获得第一名，第二名分别是华南理工大学的Notonlysim和香港大学的Firebot团队。

“我们希望通过比赛探索两件事：一是机器人从Sim2Real（仿真到现实）过程中的表现差异；二是模型在多任务场景下的泛化能力。”智元具身解决方案与生态负责人沈咏剑告诉作者，为此他们向选手提供了统一的机器人本体和数据采集支持，让他们在相同的硬件条件下针对不同任务展开探索。

对于表现出现明显差异的原因，他解释道其中包含了多重变量：例如虽然最后真机微调阶段使用的数据是统一的，但是模型预训练阶段，各家可能用了不同的数据来训练模型底座；又比如各队所用的模型框架有些虽有相似之处，但仍存在结构和参数上的差别；此外，模型完成训练后在部署与推理阶段的工程优化也会带来差异。

6大场景，验证模型泛化能力

本届AgiBot World Challenge以AgiBot World数据集为核心，设置了覆盖家居、工业、超市、餐厅和办公室五大场景的10个任务，现场的决赛则从中选出了六个操作项目。

参赛者需基于公开数据集训练通用操作模型，确保其既能在仿真环境中稳定运行，也能在真实场景中高效执行任务。赛题按从易到难的梯度设计，既包含诸如“打包”这样偏向感知与路径规划的基础任务，也包括“挂零食”等对精细操作与控制策略要求极高的复杂任务。

现场6个任务中，挂零食是唯一一个所有团队都未得满分的，基本上都是完成了第一阶段抓取到放置，最后一步挂上零食钩均未成功。在此次比赛中获得一等奖团队的成员郑金亮告诉作者，这一任务的主要难点在于任务设置本身太复杂，背景干扰多，颜色相近的带子太多，钩子又极小，机器人识别时的像素点非常有限，这让定位和执行都变得困难。

另外，参赛模型必须使用同一套算法框架应对所有场景，以全面考察其跨任务的感知、规划与执行能力，去验证机器人模型在Sim2Real的稳定性与泛化性能。

在评分体系上，据现场裁判介绍，大赛采用了长程任务分解式评估机制，以精细化的过程评分取代传统的结果评分。每个任务被拆分为多个关键动作节点，例如“倒水”任务会细分为取杯、倾倒、放回等步骤，并分别计算完成度与精度。

现场裁判告诉作者，比赛还设置了严格的60秒时间上限与成功率指标，同时通过改变物体位置和材质等方式引入扰动测试，从多维度评估模型的泛化能力。

第二名获奖者来自华南理工大学的曾嘉龙表示，在算力有限的情况下，重点放在任务动作优化和部署调试上，在训练过程中主要思考的是如何在有限样本下最大化数据利用率。“为此我们尝试引入跨任务迁移和先验知识注入的方式，在已有数据中提炼出可迁移的空间理解与控制经验，从而提升模型的适应性。也尝试结合动力学约束，让模型生成的动作在物理上更具可行性。”

在比赛的过程中，可以看到的是多数参赛队伍在完成倒水的任务时，会出现不同程度的抖动，这一点曾嘉龙也提前发现了，并借鉴了轨迹优化中的Minimum Jerk思想，在训练时对动作生成进行约束，学习可行性相关的姿态。未来，他说希望进一步强化模型在末端任务空间中的约束能力，以便在更复杂的操作中保持稳定性和安全性。

10小时训练的模型夺冠，Sim2Real还有哪些难点？

“一共花了10小时训练的模型。”郑金亮告诉作者，这一速度并非依赖算力堆叠，而是结构上的“极简主义”。

他们与许多参赛队使用PI等开源模型不同的是，改用了自己的开源模型，总参数量仅为0.9B，不足PI的三分之一。模型设计上，他们只保留主视角图像输入，对左右视角信息进行了约束处理，以减少噪声干扰。在多任务并行训练中，则采用“分层参数注册机制”，让模型能针对不同任务动态学习特征，从而在有限数据下保持稳定收敛。

训练速度快只是结果，更令人关注的是他们如何在“仿真到现实”的落差中保持精度与稳定。据郑金亮介绍，该团队在数据层面做了大量细致工作：对高频动作数据进行了降采样，避免30Hz以上采样带来的“动作漂移”；在训练阶段引入了轨迹预测机制，让模型能提前规划未来4秒的动作轨迹；另外他们重新标注了部分采集数据，将因人为操作导致的“无意义动作节点”标记出来，确保模型在学习过程中不会模仿这些噪声行为。

“我们观察到很多模型在‘打包’任务中，会无故去挪动袋子，那其实是因为训练数据中存在人类的预判性动作。”郑金亮说，“我们重新标出这些节点，让模型学到的是目标动作，而不是人类的犹豫。”

这些细节背后，其实隐藏着整个行业的共同难题——从仿真到现实的落差，也就是业内常说的Sim2Real。沈咏剑形象的表示，仿真引擎本质上是一种“人为建模”，在柔性物体、摩擦力或动态变化等复杂场景下，很难完全还原现实物理过程——哪怕是最先进的仿真系统，也难以复制现实世界中那种微小的晃动与不确定性。

而且哪怕只是视觉记录，一个真实的抓取过程，也包含了物理形变、细微晃动、光线反射等复杂信息——这些在仿真世界里很难完全重建。也正因此，真机数据当前仍是具身智能的“金字塔顶端”。

不过沈咏剑表示，对于仿真而言，这些问题并非绝对不可解，而是对于业内通用的仿真引擎而言，要做到与“真实数据完全一致”的代价太高。如果只是刚体模拟，生成数据的效率高、成本低；但一旦涉及柔性物体、或对表面摩擦力、复杂交互有依赖，仿真想要更贴近真实，成本就可能成倍上涨，超过真机采集本身。而现实世界中，广泛存在的反而是这样的复杂场景，哪怕是一本书，一张纸，也不好都简单作为刚体来处理。在这种情况下，真机数据就是成本和数据效果的最优解。

本次比赛参赛团队基于智元开源的AgiBot World数据集与EVAC基线模型提交方案，“智元的AgiBot World数据集在整个训练过程中发挥了至关重要的作用。要让机器人真正落地应用，没有1:1真机数据是不可能的。”郑金亮称每个任务智元大概提供200条数据，质量很高，尤其在采集策略上加入了人为干扰与位置变化等设定，显著提升了模型的泛化能力。

“我们希望通过比赛把整个从数据到模型、再到应用的链路串起来。”沈咏剑表示，“比起单个任务的成功率，更重要的是让生态参与者能在统一平台上完成具身智能的端到端探索。”