本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:绝影刃兄弟们,我捡垃圾回来啦……图片巨硬的XBOX游戏机大家都知道,每次都是硬件主流,销量...
2026-05-18 9
最近机器人圈出了个实打实的好消息,清华和上海AILab的团队搞出个叫SimpleVLA-RL的技术,居然能在数据不够的情况下,让机器人的VLA模型拿到SOTA成绩。
这事儿在圈里传开后,不少搞机器人研发的朋友都在聊,毕竟之前大家都被数据和泛化能力这俩问题卡得太死了。
先跟大家说下VLA模型是啥,其实就是机器人的“眼脑手结合系统”,得能看懂周围环境(视觉)、理解任务要求(语言),还得做出正确动作(动作生成)。
想让机器人在复杂环境里干活,比如家里收拾东西、工厂组装零件,全靠它。
但之前训练这模型,简直是“花钱又费劲”。
本来想机器人训练无非就是喂数据呗,后来发现根本不是这么回事儿。
之前主流的方法是“大规模预训练+有监督微调”,听着挺专业,实际操作起来全是坑。
要大量高质量的机器人操作轨迹数据,啥叫高质量?得专门搭实验场景,摆上各种要交互的东西,还得找专业人员来操控机器人做动作。
我之前跟一个机器人团队的人聊过,他们说单条像样的轨迹数据,成本就得两三百,要是覆盖十几种任务,百万级的投入都打不住。
中小团队哪扛得住这个?这还不算完,数据少了模型性能上不去,形成恶性循环。
更让人头疼的是模型的“认死理”毛病,在A场景练得再好,换个环境、换个没见过的东西,立马歇菜,比如在实验室里练会抓圆形杯子,到了真实家里,杯子换成方的,成功率能直接掉一半。
尤其是那种需要长时间连贯动作的任务,比如一步步把瓶子放进垃圾桶,模型更是容易“断片”。
这毛病不解决,机器人根本没法真正走进日常生活和工厂车间。
后来有人想,能不能用强化学习(RL)来救场?毕竟之前有大语言模型靠RL提升推理能力的例子。
可把RL用到VLA模型上,又遇到新问题,传统RL得人工设计“过程奖励”,比如机器人离目标多近给多少分,换个任务就得重新设计,根本没法用到复杂环境里。
而且VLA模型训练时,得跟物理环境或高保真模拟环境反复交互,耗时是训练语言模型的好几倍,成本也高得吓人。
就在大家愁得没办法的时候,清华和上海AILab的团队拿出了SimpleVLA-RL,直接把这些难题给拆了。
他们没从头造轮子,而是在veRL框架(之前用来优化语言模型推理的)基础上改,专门适配VLA模型的特点。
第一个关键设计是“交互式轨迹采样”,简单说就是让机器人边做边学,不再是死记硬背数据。
模型会输出每个动作的概率,随机选一个动作执行,环境给出新状态后,再接着生成下一个动作,直到任务完成。
这么一来,机器人能生成各种不同的动作轨迹,对人工数据的依赖自然就少了。
我觉得这招特别妙,之前模型是“被动学”,现在变成“主动试”,灵活性一下就上来了。
第二个设计更简单,叫“结果奖励建模”。
不搞复杂的过程奖励,就看任务成没成,成了记1分,败了记0分,再把这分平均摊到整个动作轨迹上。
不用再为不同任务调奖励规则,省了好多事,比如训练机器人“抓瓶子”和“叠碗”,用一套奖励规则就行,团队不用再花大量时间设计细节。
为了让模型敢尝试新动作,团队还做了“探索增强”。
主要调了三个地方,只保留那些“半成功半失败”的轨迹,避免模型学不到新东西;把动作保留的范围放宽了点,让那些看着概率低但可能有用的动作能留下来;还提高了探索的“温度”,鼓励模型多试试不同做法。
这么一改,模型不会只盯着一种老办法,能探索更多可能性。
最后是简化训练目标,把GRPO算法里的KL散度正则项去掉了,也不依赖参考模型。
这么做不仅减少了内存消耗,还让模型不用被参考模型束缚,能更自由地学新动作,这种“做减法”的思路挺难得,很多时候技术优化不是加东西,而是删繁就简。
设计再好,也得看实际表现,团队在三个主流基准测试上做了实验,结果确实亮眼。
单臂操控的LIBERO测试里,之前模型平均成功率不到92%,用了SimpleVLA-RL后直接冲到99%;双臂的RoboTwin测试,平均成功率也涨了30多个百分点,尤其是“叠积木”任务,从7%左右涨到40%,提升特别明显。
最让人惊喜的是“单轨迹SFT”场景,每个任务只给1条演示数据。

之前模型在长时序任务上的成功率才17%左右,用了SimpleVLA-RL后,直接飙到91%。
这数据我刚看到的时候都有点不敢信,毕竟数据少成这样,还能有这效果,确实解决了“数据荒”的大问题。
更关键的是真实世界的部署能力,团队只用仿真数据训练,没碰过真实数据,然后在AgileXPiper机械臂上测试。
之前模型平均成功率才17%,用了新方案后快40%了;之前完全失败的“抓瓶子”任务,现在也有14%的成功率。

这意味着不用花大价钱采集真实数据,模型也能在真实机器人上用,大大降低了落地成本。
本来以为模型顶多就是把任务完成得更好,没想到还搞出了新花样,“Pushcut”现象。
在“移罐子”和“把东西从A放到B”这两个任务里,之前模型都学人类的“抓起来挪”,但用了SimpleVLA-RL后,模型居然自己学会了“推”,直接把罐子推到目标位置,不用抓。
这种方法比“抓”更高效,还突破了人类演示的局限。
这现象比单纯的性能提升更有价值,这说明机器人不再是只会模仿人类的“复读机”,能自己根据情况找最优解。
未来要是机器人遇到人类没教过的场景,说不定能自己想出新办法,这对通用机器人的发展太重要了。
如此看来,SimpleVLA-RL不仅解决了当下的瓶颈,还为未来技术指明了一个方向。
总的来说,清华和上海AILab的这个方案,是真真正正解决了机器人VLA训练的两大核心问题,数据依赖多和泛化能力差。
它不仅让模型在缺数据时也能拿SOTA,还能在真实场景中用,更重要的是发现了Pushcut现象,让机器人能自主探索新策略。
这技术要是普及开,中小团队搞机器人研发的门槛能降不少,机器人也能更快走进我们的生活,不管是家里的服务机器人,还是工厂里的工业机器人,都能更灵活、更便宜。

未来要是往多机器人协同、灾害救援这些复杂场景延伸,说不定还能有更多惊喜。
毫无疑问,这是机器人领域一次挺有价值的突破。
相关文章
本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:绝影刃兄弟们,我捡垃圾回来啦……图片巨硬的XBOX游戏机大家都知道,每次都是硬件主流,销量...
2026-05-18 9
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2026-05-18 13
【环球网科技综合报道】10月6日消息,据多家外媒报道,苹果公司正全面调整其可穿戴设备战略,将资源集中投入智能眼镜赛道。知情人士透露,苹果计划于2026...
2026-05-18 6
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2026-05-18 14
本篇文章给大家谈谈红黑大战高胜率技巧视频,以及红黑大战玩法概率对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 红黑大战概率算法? 概率红黑大战...
2026-05-18 12
最近机器人圈出了个实打实的好消息,清华和上海AILab的团队搞出个叫SimpleVLA-RL的技术,居然能在数据不够的情况下,让机器人的VLA模型拿到...
2026-05-18 8
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2026-05-18 15
微乐湖北麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“...
2026-05-18 19
发表评论