首页今日新闻文章正文

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

今日新闻 2026年05月18日 02:07 8 aa

最近机器人圈出了个实打实的好消息，清华和上海AILab的团队搞出个叫SimpleVLA-RL的技术，居然能在数据不够的情况下，让机器人的VLA模型拿到SOTA成绩。

这事儿在圈里传开后，不少搞机器人研发的朋友都在聊，毕竟之前大家都被数据和泛化能力这俩问题卡得太死了。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

先跟大家说下VLA模型是啥，其实就是机器人的“眼脑手结合系统”，得能看懂周围环境（视觉）、理解任务要求（语言），还得做出正确动作（动作生成）。

想让机器人在复杂环境里干活，比如家里收拾东西、工厂组装零件，全靠它。

但之前训练这模型，简直是“花钱又费劲”。

本来想机器人训练无非就是喂数据呗，后来发现根本不是这么回事儿。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

之前主流的方法是“大规模预训练+有监督微调”，听着挺专业，实际操作起来全是坑。

要大量高质量的机器人操作轨迹数据，啥叫高质量？得专门搭实验场景，摆上各种要交互的东西，还得找专业人员来操控机器人做动作。

我之前跟一个机器人团队的人聊过，他们说单条像样的轨迹数据，成本就得两三百，要是覆盖十几种任务，百万级的投入都打不住。

中小团队哪扛得住这个？这还不算完，数据少了模型性能上不去，形成恶性循环。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

更让人头疼的是模型的“认死理”毛病，在A场景练得再好，换个环境、换个没见过的东西，立马歇菜，比如在实验室里练会抓圆形杯子，到了真实家里，杯子换成方的，成功率能直接掉一半。

尤其是那种需要长时间连贯动作的任务，比如一步步把瓶子放进垃圾桶，模型更是容易“断片”。

这毛病不解决，机器人根本没法真正走进日常生活和工厂车间。

后来有人想，能不能用强化学习（RL）来救场？毕竟之前有大语言模型靠RL提升推理能力的例子。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

可把RL用到VLA模型上，又遇到新问题，传统RL得人工设计“过程奖励”，比如机器人离目标多近给多少分，换个任务就得重新设计，根本没法用到复杂环境里。

而且VLA模型训练时，得跟物理环境或高保真模拟环境反复交互，耗时是训练语言模型的好几倍，成本也高得吓人。

SimpleVLA-RL咋破局？四个设计把难题拆了

就在大家愁得没办法的时候，清华和上海AILab的团队拿出了SimpleVLA-RL，直接把这些难题给拆了。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

他们没从头造轮子，而是在veRL框架（之前用来优化语言模型推理的）基础上改，专门适配VLA模型的特点。

第一个关键设计是“交互式轨迹采样”，简单说就是让机器人边做边学，不再是死记硬背数据。

模型会输出每个动作的概率，随机选一个动作执行，环境给出新状态后，再接着生成下一个动作，直到任务完成。

这么一来，机器人能生成各种不同的动作轨迹，对人工数据的依赖自然就少了。

我觉得这招特别妙，之前模型是“被动学”，现在变成“主动试”，灵活性一下就上来了。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

第二个设计更简单，叫“结果奖励建模”。

不搞复杂的过程奖励，就看任务成没成，成了记1分，败了记0分，再把这分平均摊到整个动作轨迹上。

不用再为不同任务调奖励规则，省了好多事，比如训练机器人“抓瓶子”和“叠碗”，用一套奖励规则就行，团队不用再花大量时间设计细节。

为了让模型敢尝试新动作，团队还做了“探索增强”。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

主要调了三个地方，只保留那些“半成功半失败”的轨迹，避免模型学不到新东西；把动作保留的范围放宽了点，让那些看着概率低但可能有用的动作能留下来；还提高了探索的“温度”，鼓励模型多试试不同做法。

这么一改，模型不会只盯着一种老办法，能探索更多可能性。

最后是简化训练目标，把GRPO算法里的KL散度正则项去掉了，也不依赖参考模型。

这么做不仅减少了内存消耗，还让模型不用被参考模型束缚，能更自由地学新动作，这种“做减法”的思路挺难得，很多时候技术优化不是加东西，而是删繁就简。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

设计再好，也得看实际表现，团队在三个主流基准测试上做了实验，结果确实亮眼。

单臂操控的LIBERO测试里，之前模型平均成功率不到92%，用了SimpleVLA-RL后直接冲到99%；双臂的RoboTwin测试，平均成功率也涨了30多个百分点，尤其是“叠积木”任务，从7%左右涨到40%，提升特别明显。

缺数据也能赢？实测和Pushcut现象才是真亮点

最让人惊喜的是“单轨迹SFT”场景，每个任务只给1条演示数据。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

之前模型在长时序任务上的成功率才17%左右，用了SimpleVLA-RL后，直接飙到91%。

这数据我刚看到的时候都有点不敢信，毕竟数据少成这样，还能有这效果，确实解决了“数据荒”的大问题。

更关键的是真实世界的部署能力，团队只用仿真数据训练，没碰过真实数据，然后在AgileXPiper机械臂上测试。

之前模型平均成功率才17%，用了新方案后快40%了；之前完全失败的“抓瓶子”任务，现在也有14%的成功率。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

这意味着不用花大价钱采集真实数据，模型也能在真实机器人上用，大大降低了落地成本。

本来以为模型顶多就是把任务完成得更好，没想到还搞出了新花样，“Pushcut”现象。

在“移罐子”和“把东西从A放到B”这两个任务里，之前模型都学人类的“抓起来挪”，但用了SimpleVLA-RL后，模型居然自己学会了“推”，直接把罐子推到目标位置，不用抓。

这种方法比“抓”更高效，还突破了人类演示的局限。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

这现象比单纯的性能提升更有价值，这说明机器人不再是只会模仿人类的“复读机”，能自己根据情况找最优解。

未来要是机器人遇到人类没教过的场景，说不定能自己想出新办法，这对通用机器人的发展太重要了。

如此看来，SimpleVLA-RL不仅解决了当下的瓶颈，还为未来技术指明了一个方向。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

总的来说，清华和上海AILab的这个方案，是真真正正解决了机器人VLA训练的两大核心问题，数据依赖多和泛化能力差。

它不仅让模型在缺数据时也能拿SOTA，还能在真实场景中用，更重要的是发现了Pushcut现象，让机器人能自主探索新策略。

这技术要是普及开，中小团队搞机器人研发的门槛能降不少，机器人也能更快走进我们的生活，不管是家里的服务机器人，还是工厂里的工业机器人，都能更灵活、更便宜。

机器人RL瓶颈破解！清华方案缺数据也稳赢SOTA

未来要是往多机器人协同、灾害救援这些复杂场景延伸，说不定还能有更多惊喜。

毫无疑问，这是机器人领域一次挺有价值的突破。

乐游麻将可以开挂吗的简单介绍（乐游打麻将可以开挂吗?）

红黑大战高胜率技巧视频（红黑大战玩法概率）

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved. sitemap