文|正解局7月31日,大疆正式发布了首款全景相机“Osmo 360”,引发市场关注。面对大疆“偷家”,原本深耕全景相机市场的影石也没有闲着,透露了无人...
2025-08-12 0
不仅有高级操作,还有强大的产品落地能力。
作者|王艺
编辑|王博
去年5月,在北京智源研究院的天台上,进行了一场名为《预言里的具身智能VS现实中的创业抉择》的内部讨论。
当时,一位90后创业者在谈到具身智能好产品时说:“我们应该寻找对泛化能力要求迫切,但对于精度要求又不能过高的任务进行产品化。”
这种任务具备几个特征:场景多变,需要大规模数据覆盖;容错空间足够大,对厘米级或度级误差不敏感;业务价值明显,能带来效率提升;数据和硬件门槛可控。这样才能既发挥数据驱动模型的“大而全”优势,又避免为“极致精度”付出过高成本。
这位90后创业者就是北京大学助理教授、银河通用创始人及CTO、智源学者王鹤。
一年过去了,银河通用在泛化能力与精度之间找到业务切口——零售和工业。
在2025世界机器人大会(WRC)上,银河通用的Galbot机器人一直在商品货架前忙碌着,只要有观众下单商品,它就可以从货架上取到并递给观众,整个过程完全自主完成,是大会上的明星机器人之一。
这不是一般的抓取商品展示,而是机器人在零售场景的高质量的操作。Galbot展示了在面对密集陈列、多样SKU及多变包装形态的商超环境时的识别与抓取能力,机器人能够快速、精准地定位目标商品,自主完成稳定高效的取送操作,整个过程无需遥控,也无需场景数据的预采集。
「甲子光年」在现场注意到一个技术细节,一位观众现场下单了2件不同的商品,Galbot可以双手同时各夹取1件商品,准确、平稳地把商品交给观众,这是之前银河通用对外公开展示中比较少见的,也说明银河通用的技术在不断迭代。
就在世界机器人大会开幕的前一天,Galbot已经开了一家线下实体便利店,真正走进了人们的生活中。
8月7日,银河通用发布了全新产品——银河太空舱,落地在北京市海淀区大融城。银河通用介绍,银河太空舱是“全球首个机器人全自主服务的快闪店”的商业实体。顾客可以自主下单,由太空舱内的银河通用机器人Galbot为顾客抓取商品。
除了零售之外,银河通用在工业场景也有新突破。
面对多层堆叠且错位的零件、外观高度相似的工件,以及工厂内各种环境干扰,Galbot依靠精准的视觉识别系统,能够快速锁定目标工件,精准抓取并完成深筐作业中的自主避障。Galbot在执行料箱搬运工作中,工作人员不停改变料箱位置,干扰机器人,但Galbot始终能做出最优判断。整个过程,动作“丝滑”,搬箱子都有了“漂移感”。
这就是属于机器人的高级操作。
「甲子光年」的感受是,银河通用不仅有高级操作,还有强大的产品落地能力,而这些都离不开其优秀的软硬件实力以及务实的产品规划。
银河通用研发了一系列具身大模型:端到端具身大模型GroceryVLA、端到端具身抓取基础大模型GraspVLA、端到端具身导航大模型TrackVLA。银河通用旗舰款机器人Galbot G1正是搭载了其自研的具身大模型。
GroceryVLA、GraspVLA、TrackVLA其实可以理解为在同一个端到端具身大模型技术体系下的三条场景化分支:GraspVLA更专注于手部/机械臂的操作控制,是抓取动作能力的基础模型;TrackVLA更专注于全身/底盘的移动与路径规划,是导航能力的基础模型;而GroceryVLA可以看作是“GraspVLA+TrackVLA的场景化组合”,专门针对零售场景,既要导航到货架,又要抓取商品。
它们共享技术底座,可以独立运行,也可组合成更复杂的机器人行为链。
GroceryVLA让机器人首次实现了对密集货架上袋装零食、挂钩商品的稳定抓取。这一场景与真实商超货架几乎一致,此前在全球范围内尚无成熟解决方案。
银河通用机器人Galbot在抓取商品,图片来源:「甲子光年」拍摄
相较于传统的VLA模型,GroceryVLA模型有三大优势。
一是技术范式突破。GroceryVLA突破了传统“视觉感知+路径规划”的分离式技术路线,能够像人一样,在看到目标后直接生成动作,无需复杂的中间规划环节。
二是强大的泛化能力。GroceryVLA无需针对每种商品(如袋装面包、塑料瓶、文创雪糕等)单独调参,就能统一处理软包装、硬盒、透明物体等多种形态,无论是刚性包装还是柔性物体,都能精准取放,实现跨品类、跨物体的统一抓取策略。与此同时,基于大规模仿真数据和多场景训练,模型可直接泛化至全新环境,应对货物随机摆放、光照变化等真实世界的挑战。
三是强大的自主决策与抗干扰能力。面对货架上多个相似商品,GroceryVLA能够基于任务需求动态判断最优抓取目标,区别于传统静态“指定抓”策略。系统按照指定顺序精准执行,展现出高级任务理解与灵活调度能力,确保多样化操作流程有条不紊。此外,在抓取过程中,模型具备实时闭环策略调整能力,能够快速响应现场人为干扰,如货物被移走、增加或推挤,甚至抓取动作中瓶子被碰倒后重新扶正,保障任务连续高效完成。
银河通用联合创始人兼大模型负责人张直政告诉「甲子光年」,GroceryVLA的背后是银河通用基座大模型的能力。在面向特定场景使用的时候,如果新的物品和环境与训练数据的分布差异不大,那么该模型基本可以实现Zero-Shot泛化,也就是不需要采集任何额外新的数据,就把基座模型的能力迁移过去。
“我们会用合成数据做前期的预训练。零售杂货涉及不同品类、不同品牌的商品,不同的阴影、光照、货架等,因此在做泛化的时候,我们会分为多个维度。”张直政说。
张直政介绍,这包括了语义的泛化——让模型认识这个物体是什么;物体的泛化——让模型认识物体的几何形状、物理材质;交互方式的泛化——物体有些是紧密摆放,有些是挂在一起。
银河通用在预训练阶段产生了大量不同维度的数据,并在仿真器里进行大规模带有域随机化的虚拟训练,让模型对没有见过的物体和场景也能进行有效的泛化。
「甲子光年」曾给出判断,在AI产业化落地需求的趋势下,后训练正在从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”(详见《大模型竞赛转向:决胜关键为何是“后训练”?|甲子光年》),如何获得足够多、足够精准的行业和领域数据也成了很多企业在后训练过程中面临的难题。
而银河通用在预训练阶段就已经使用了成百亿、上千亿条的合成数据,使得模型具备了充足的泛化性,这让他们在后训练的过程中无需使用较多的数据,只需几百甚至几十条数据就可以让模型学习新的技能,极大提高了模型适应真实环境的效率、缩减了训练成本。
除了零售场景,银河通用这次在世界机器人大会还展示了Galbot在工业场景的应用。
在工业场景的汽车零件SPS分拣工作中,Galbot成功攻克了传统机器人难以突破的复杂问题。面对多层堆叠且错位的零件、外观高度相似的工件,以及工厂内各种环境干扰,Galbot依靠精准的视觉识别系统,能够快速锁定目标工件,精准抓取并完成深筐作业中的自主避障。它不仅可以分辨出近似零件,避免误抓,还能在作业过程中灵活调整动作路径。
在这个过程中,负责泛化型抓取任务的GraspVLA和负责导航避障的TrackVLA就在发挥作用。
Galbot分拣汽车零件,动图来源:银河通用
现场工作人员也在不断给Galbot上难度。在机器人执行料箱搬运工作中,工作人员不停改变料箱位置,干扰机器人,但Galbot始终能做出最优判断,完全基于视觉驱动找到料箱,并将箱子双臂协同搬起,展现出极强的抗干扰能力。
「甲子光年」注意到,相比现场其他一些执行搬运工作的机器人,Galbot的动作相当“丝滑”,如同漂移一般。这不仅吸引了很多观众,就连美国机器人工业协会主席Jeff Burnstein也在这里驻足观察了很久。
这并不奇怪,因为这是全球首个基于NVIDIA Jetson Thor的机器人真机应用展示。
全球首批搭载NVIDIA Jetson Thor的具身智能大模型通用机器人,图片来源:银河通用
王鹤介绍,银河通用是全球最早收到NVIDIA Jetson Thor的企业之一,并在本次大会上展示了国内首款搭载NVIDIA Jetson Thor的机器人Galbot G1 Premium。
“我们率先在中国将NVIDIA Jetson Thor部署于人形机器人之中。”王鹤说,“在演示中,配备NVIDIA Jetson Thor的机器人展现出丝滑的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升,现场观众一致评价为‘最快的人形机器人’,这背后离不开强大芯片的支撑。”
王鹤与宇树科技创始人王兴兴、英伟达Omniverse和仿真模拟技术副总裁Rev Lebaredian在WRC期间参加活动
此外,在WRC现场,一只搭载TrackVLA的宇树机器狗引起了众多小朋友的喜爱和欢呼。在工作人员的引导下,小朋友们给机器狗设置各种路障,在种种“刁难”下,小狗均不为所动,能精准地找到自己的主人。
这种跟随能力离不开银河通用自主研发的全球首款端到端导航大模型TrackVLA。该模型基于纯视觉感知,自主推理,具备长程记忆,能够让机器狗可以在密集人群、陌生场景中紧密跟随主人,并能自主避障、敏捷穿过狭窄地形。
如果说这次世界机器人大会是银河通用一次集中的软硬件实力展示,那么大会前一天银河太空舱的发布就是银河通用对商业化路径的验证。
“这机器人不光会说话,还能端咖啡、拿饮料,真的挺方便!”8月7日银河太空舱刚一亮相,就吸引了不少市民围观。
在银河太空舱的柜台,顾客可以点击平板电脑上的选项购买商品,Galbot随即就会移动并用机械手精准抓取饮品,并平稳送达顾客面前,真正实现“无遥操、全流程自主工作”。
虽然全程只需要不到1分钟,但是也有顾客提出疑问:“在自动售货机买一瓶饮料只要十几秒,为什么我们需要到银河太空舱,让一个机器人来做这件事情呢?”
用一句话回答就是:银河太空舱不是一台自动售货机,而是一个由机器人常态化经营的便利店、药店、文创店。
位于北京海淀大融城的银河太空舱 ,图片来源:银河通用
银河太空舱内的商品品类和规格广泛,支持咖啡及自制饮料、饮料零食、文创周边、药品等多品类售卖落地,适配冷藏/冷冻需求。但它对空间要求不高,最小仅需9平方米运营空间,主打热门景区、文旅街区、城市商圈、场站交通枢纽等高流量场景的即时消费服务,以更低成本、更快部署的方式提供高效服务。
“这是一项真正回应城市现实需求且能拉动内需的实用型产品。”银河通用副总裁、销售负责人闻爱荣说。
零售行业有一个常见的挑战是动态补货与库存管理。我们经常看见自动售货机需要人工打开机柜、按通道摆货,且通道容量固定,不便于临时调整品类或数量。而机器人能直接在货架上或仓库中抓取商品,这不仅节省了补货通道设计成本,还能在线上系统中实时对接库存。
银河太空舱还给顾客带来了全新的交互体验,这里的机器人不再是一个拿取物品的工具,而是一个真正在跟顾客交流的店员。银河通用的Galbot机器人在银河太空舱内承担零售店员职能,支持购买接待、点单支付、商品拿取、当面交付,支持区域特色服务定制,可实现机器人自主常态化运营、特色展示。
“机器人需要实现自主常态化运营近100%成功率,并在硬件性能和全链条操作上实现突破。我们现在已经做到了机器人的自动充电,当没有任务的时候,机器人可以回到充电桩,充一次电能工作8到9个小时。即便没有充电桩,我们也有换电的能力。”闻爱荣说。
在发布仪式现场,银河通用还宣布启动“十城百店”计划:以北京市海淀区为起点,逐步覆盖城市街区、景区、商圈等情景,构建可快速部署的智能商用体系。
王鹤对此很有信心:“银河太空舱在打造网红引流点的同时实现降本增效保障可持续收益,预计单个银河太空舱日均客流量可达2000人次、单店订单可达500单,预估可提升周边人流量30~40%。”
他同时认为,未来几年,银河通用的关键任务是完成千台乃至万台级自主人形机器人的批量生产,“银河太空舱在超大城市、高人流密度、高商业价值核心区的落地,是对银河通用技术实力的最好验证。”
王鹤在银河太空舱购买了一瓶饮料,图片来源:银河通用
「甲子光年」认为,“十城百店”计划其实暴露了银河通用更大的野心。
这不再是卖出几台机器人的小生意,而是意图通过一种标准化的“人形机器人零售解决方案”,构建一张“由人形机器人经营的零售网”。
银河太空舱并没有选择“攻入”一个复杂的存量场景,而是选择“创造”一个全新的、可控的增量场景,而这个场景又离人们的生活很近。
“银河太空舱是商业场景下全球唯一面向消费者常态化经营的具身智能零售解决方案。”王鹤介绍。
银河太空舱,图片来源:银河通用
银河通用没有局限于卖机器人,而是在卖一套智能零售解决方案。它不需要客户进行复杂的二次开发和场景集成,降低了客户的使用门槛。
不过,人形机器人在完全开放、非结构化的环境中执行任务,至今仍是世界级难题,这也是很多企业在做人形机器人定制化项目时需要投入大量人力、物力和时间的原因,这在一定程度上影响了人形机器人的商业化。
但是,银河通用选择用标准化替代定制化。在银河太空舱这9平方米的半结构化空间里,货架、商品、动线相对固定,这让GroceryVLA具身大模型可以专注于其最擅长的“识别-抓取-交互”核心任务,从而保证了商业运营所需的长时间高稳定性。
另外,人形机器人本身也是“流量”来源。银河太空舱让人形机器人走进了老百姓的生活,自身也成为了商圈、景区的“网红打卡点”。在银河太空舱发布仪式和世界机器人大会上,银河通用和宇树科技联合打造的人形机器人舞蹈团吸引了不少人的关注。
人形机器人跳舞现在并不稀奇,但是如何让机器人快速学会新的舞蹈动作,并不容易。「甲子光年」了解到,机器人舞蹈编排耗时耗力,控制方面的迁移也需要长时间打磨,往往一支舞蹈需要“排练”1到2个月的时间。而银河通用采用了最新的sim2real方案,让短时间量产舞蹈成为可能。从选舞编排,到强化学习训练,再到sim2real迁移、端测部署,只用10天就可以让机器人学会各种高难度舞蹈动作。
最后还有很重要的一点,银河通用可利用“银河太空舱”巧妙构建数据闭环。
对于人形机器人而言,真实世界的交互数据是模型迭代的“燃料”。“银河太空舱”作为一个高频零售终端,每天能产生大量的、真实的、多样化的“任务-执行-反馈”数据。这些数据将反哺GroceryVLA的持续优化,形成一个高效的“数据驱动-模型迭代-商业优化”的数据飞轮。
总的来说,通过“场景定义产品”的思路,将一个复杂的硬科技问题,包装成了一个轻量化、标准化的商业解决方案,在消费端切开了人形机器人商业化落地的口子。
银河通用正在用一种务实而巧妙的方式,回答“如何让通用人形机器人真正通用起来”的终极问题。
当然,这并不意味着银河通用就不重视其他领域的落地应用。
王鹤在世界机器人大会期间表示:“我们做零售机器人时,拿货架上或桌面上的物品,技术本质上与工业分拣类似,只是零售对节拍要求较低,拿错货的后果也较轻。但在工业场景,比如汽车制造厂,一条产线停机一分钟可能就意味着损失上万元,因此对分拣的精度和速度要求极高。”
王鹤也透露,在机器人搬运方面,银河通用已经非常接近实际工厂的部署,“我预计今年年底可能会有几十台银河通用的机器人进入工厂车间实际应用。”
在去年5月的那场《预言里的具身智能VS现实中的创业抉择》内部讨论中,王鹤的这段发言给我们留下了很深刻的印象。
我们讲具身智能好产品,我这里狭义的定义为是数据驱动的,如果是以数据驱动的具身智能创业,一定要想几个问题。
第一个问题是数据驱动的核心优势是泛化,它的劣势是精度,所以我们应该寻找对泛化能力要求迫切,但对于精度要求又不能过高的任务进行产品化;
第二个问题是要有数据,如果数据完全来自于遥操作,那么就会面临速成但不泛化的问题,特斯拉FSD的一个护城河就是其上百万台车和上亿小时的实时驾驶数据。如果没有数据来源,或者数据采集成本很高,那么产品未来的商业化是不可能把这笔账算成的;
除此之外,好产品还要测算硬件成本。
现在回想,目前我们看到的产品规划,其实早就在王鹤的心中。
王鹤在《预言里的具身智能VS现实中的创业抉择》内部讨论中发言,图片来源:中关村智友研究院
(封面图来源:银河通用)
相关文章
文|正解局7月31日,大疆正式发布了首款全景相机“Osmo 360”,引发市场关注。面对大疆“偷家”,原本深耕全景相机市场的影石也没有闲着,透露了无人...
2025-08-12 0
卫星互联网加速组网,一批新型号商业火箭陆续首飞;顶层设计强化牵引,产业资本加速入场;构建起“星、箭、场、测、用”全产业链,坐拥万亿元市场规模……“十四...
2025-08-12 0
在骄阳似火的日子里,伴随着全球瞩目的2025世界机器人大会盛大开幕,来自城市副中心的企业军团强势登场,以一系列身怀绝技的机器人产品点燃全场热情。从既能...
2025-08-12 0
不仅有高级操作,还有强大的产品落地能力。作者|王艺编辑|王博去年5月,在北京智源研究院的天台上,进行了一场名为《预言里的具身智能VS现实中的创业抉择》...
2025-08-12 0
8月初,我国香港地区的国泰航空宣布订购14 架波音 777-9 客机,这使其该机型订单总数达 35 架。在A380、B747客机相继停产之后,B777...
2025-08-12 0
在科技行业,交互方式的每一次变革都重塑了用户与设备的连接模式,也改写了行业的竞争版图。从键盘到鼠标,从触摸操控到语音指令,人机交互不断突破边界。如今,...
2025-08-12 0
近日高德地图2025正式发布,通过与“感知-思考-行动-反馈”的空间智能架构深度融合,以物理世界的多模态信息为基石素材,以真实时空为核心介质,推理出当...
2025-08-12 0
金融界2025年8月12日消息,国家知识产权局信息显示,北京市阀门总厂股份有限公司取得一项名为“一种升降杆阀门阀杆加长结构”的专利,授权公告号CN22...
2025-08-12 0
发表评论