首页 今日新闻文章正文

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

今日新闻 2026年05月18日 02:07 8 aa

最近机器人圈出了个实打实的好消息,清华和上海AILab的团队搞出个叫SimpleVLA-RL的技术,居然能在数据不够的情况下,让机器人的VLA模型拿到SOTA成绩。

这事儿在圈里传开后,不少搞机器人研发的朋友都在聊,毕竟之前大家都被数据和泛化能力这俩问题卡得太死了。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

先跟大家说下VLA模型是啥,其实就是机器人的“眼脑手结合系统”,得能看懂周围环境(视觉)、理解任务要求(语言),还得做出正确动作(动作生成)。

想让机器人在复杂环境里干活,比如家里收拾东西、工厂组装零件,全靠它。

但之前训练这模型,简直是“花钱又费劲”。

本来想机器人训练无非就是喂数据呗,后来发现根本不是这么回事儿。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

之前主流的方法是“大规模预训练+有监督微调”,听着挺专业,实际操作起来全是坑。

要大量高质量的机器人操作轨迹数据,啥叫高质量?得专门搭实验场景,摆上各种要交互的东西,还得找专业人员来操控机器人做动作。

我之前跟一个机器人团队的人聊过,他们说单条像样的轨迹数据,成本就得两三百,要是覆盖十几种任务,百万级的投入都打不住。

中小团队哪扛得住这个?这还不算完,数据少了模型性能上不去,形成恶性循环。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

更让人头疼的是模型的“认死理”毛病,在A场景练得再好,换个环境、换个没见过的东西,立马歇菜,比如在实验室里练会抓圆形杯子,到了真实家里,杯子换成方的,成功率能直接掉一半。

尤其是那种需要长时间连贯动作的任务,比如一步步把瓶子放进垃圾桶,模型更是容易“断片”。

这毛病不解决,机器人根本没法真正走进日常生活和工厂车间。

后来有人想,能不能用强化学习(RL)来救场?毕竟之前有大语言模型靠RL提升推理能力的例子。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

可把RL用到VLA模型上,又遇到新问题,传统RL得人工设计“过程奖励”,比如机器人离目标多近给多少分,换个任务就得重新设计,根本没法用到复杂环境里。

而且VLA模型训练时,得跟物理环境或高保真模拟环境反复交互,耗时是训练语言模型的好几倍,成本也高得吓人。

SimpleVLA-RL咋破局?四个设计把难题拆了

就在大家愁得没办法的时候,清华和上海AILab的团队拿出了SimpleVLA-RL,直接把这些难题给拆了。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

他们没从头造轮子,而是在veRL框架(之前用来优化语言模型推理的)基础上改,专门适配VLA模型的特点。

第一个关键设计是“交互式轨迹采样”,简单说就是让机器人边做边学,不再是死记硬背数据。

模型会输出每个动作的概率,随机选一个动作执行,环境给出新状态后,再接着生成下一个动作,直到任务完成。

这么一来,机器人能生成各种不同的动作轨迹,对人工数据的依赖自然就少了。

我觉得这招特别妙,之前模型是“被动学”,现在变成“主动试”,灵活性一下就上来了。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

第二个设计更简单,叫“结果奖励建模”。

不搞复杂的过程奖励,就看任务成没成,成了记1分,败了记0分,再把这分平均摊到整个动作轨迹上。

不用再为不同任务调奖励规则,省了好多事,比如训练机器人“抓瓶子”和“叠碗”,用一套奖励规则就行,团队不用再花大量时间设计细节。

为了让模型敢尝试新动作,团队还做了“探索增强”。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

主要调了三个地方,只保留那些“半成功半失败”的轨迹,避免模型学不到新东西;把动作保留的范围放宽了点,让那些看着概率低但可能有用的动作能留下来;还提高了探索的“温度”,鼓励模型多试试不同做法。

这么一改,模型不会只盯着一种老办法,能探索更多可能性。

最后是简化训练目标,把GRPO算法里的KL散度正则项去掉了,也不依赖参考模型。

这么做不仅减少了内存消耗,还让模型不用被参考模型束缚,能更自由地学新动作,这种“做减法”的思路挺难得,很多时候技术优化不是加东西,而是删繁就简。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

设计再好,也得看实际表现,团队在三个主流基准测试上做了实验,结果确实亮眼。

单臂操控的LIBERO测试里,之前模型平均成功率不到92%,用了SimpleVLA-RL后直接冲到99%;双臂的RoboTwin测试,平均成功率也涨了30多个百分点,尤其是“叠积木”任务,从7%左右涨到40%,提升特别明显。

缺数据也能赢?实测和Pushcut现象才是真亮点

最让人惊喜的是“单轨迹SFT”场景,每个任务只给1条演示数据。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

之前模型在长时序任务上的成功率才17%左右,用了SimpleVLA-RL后,直接飙到91%。

这数据我刚看到的时候都有点不敢信,毕竟数据少成这样,还能有这效果,确实解决了“数据荒”的大问题。

更关键的是真实世界的部署能力,团队只用仿真数据训练,没碰过真实数据,然后在AgileXPiper机械臂上测试。

之前模型平均成功率才17%,用了新方案后快40%了;之前完全失败的“抓瓶子”任务,现在也有14%的成功率。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

这意味着不用花大价钱采集真实数据,模型也能在真实机器人上用,大大降低了落地成本。

本来以为模型顶多就是把任务完成得更好,没想到还搞出了新花样,“Pushcut”现象。

在“移罐子”和“把东西从A放到B”这两个任务里,之前模型都学人类的“抓起来挪”,但用了SimpleVLA-RL后,模型居然自己学会了“推”,直接把罐子推到目标位置,不用抓。

这种方法比“抓”更高效,还突破了人类演示的局限。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

这现象比单纯的性能提升更有价值,这说明机器人不再是只会模仿人类的“复读机”,能自己根据情况找最优解。

未来要是机器人遇到人类没教过的场景,说不定能自己想出新办法,这对通用机器人的发展太重要了。

如此看来,SimpleVLA-RL不仅解决了当下的瓶颈,还为未来技术指明了一个方向。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

总的来说,清华和上海AILab的这个方案,是真真正正解决了机器人VLA训练的两大核心问题,数据依赖多和泛化能力差。

它不仅让模型在缺数据时也能拿SOTA,还能在真实场景中用,更重要的是发现了Pushcut现象,让机器人能自主探索新策略。

这技术要是普及开,中小团队搞机器人研发的门槛能降不少,机器人也能更快走进我们的生活,不管是家里的服务机器人,还是工厂里的工业机器人,都能更灵活、更便宜。

机器人RL瓶颈破解!清华方案缺数据也稳赢SOTA

未来要是往多机器人协同、灾害救援这些复杂场景延伸,说不定还能有更多惊喜。

毫无疑问,这是机器人领域一次挺有价值的突破。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap