最近NeurIPS 2025放出了一批接收论文,其中一篇Spotlight挺有意思。美国伊利诺伊大学香槟分校的团队搞出个叫ROS-Cam的方法,就靠一...
2025-10-06 0
最近NeurIPS 2025放出了一批接收论文,其中一篇Spotlight挺有意思。
美国伊利诺伊大学香槟分校的团队搞出个叫ROS-Cam的方法,就靠一段RGB视频,在有运动遮挡的动态场景里,还能精准预测相机参数。
其实,这事儿解决的是个老麻烦了,做三维重建、NeRF训练的人,怕是最有体会相机参数的重要性。
之前大家常用的传统方法,比如COLMAP,静态场景里表现还行,一碰到路上有车跑、行人走动的动态场景,立马就歇菜。
还得依赖额外的运动掩码、深度数据这些,门槛高不说,处理起来还慢。
后来出的3R模型也没好到哪去,要大GPU才能跑,训练数据得高精度的,还容易出现场景漂移。
本来想觉得3R能解决动态问题,后来发现它衍生出来的方法,也没把硬件需求高、易漂移这些痛点一起搞定。
如此看来,李放他们团队才会琢磨,能不能只靠RGB视频当监督,就把动态场景的相机参数算准,还得高效稳定?
要实现这个目标,他们把问题拆成了三个部分,怎么建帧与帧的联系、怎么减少移动点的影响、怎么只用RGB监督还保证效果。
其实,这思路挺清晰,没走那种绕弯子的路。
首先,是补丁式跟踪滤波器。
之前的方法都爱用预训练的密集预测模型,比如算深度、光流来建帧间联系,可这模型准头不够,反而会引入噪声,还增加计算负担。
ROS-Cam没这么干,而是搞了个稀疏点跟踪的方式,像搭铰链似的把视频帧连起来。
很显然,这招更聪明,不用密集预测,既少了噪声干扰,又省了计算时间,效率一下就提上来了。
然后,是异常值感知联合优化。
因为没用到运动先验,点跟踪里难免混进移动点,这些点会影响参数计算。
他们没给每个像素设不确定性参数,而是给每条点轨迹(叫校准点)设了一个。
这么一来,参数量随帧数增长是线性的,优化起来快多了。
他们还用了柯西分布的scale参数当不确定性参数,加了softplus确保参数为正,又搞了“平均积累误差”和柯西损失函数。
其实,这套组合拳下来,移动点的干扰基本就被压住了,比之前的方法针对性强多了。
最后,是双阶段训练策略。
加了不确定性参数后,一起优化所有参数容易让模型陷进局部最小值。
他们分析了softplus的极限和凸最小值后,分成两阶段,第一阶段让模型快速收敛,第二阶段再精细优化。
毫无疑问,这么做避开了局部最优的坑,模型精度和收敛速度都上去了。
技术说得再热闹,也得靠实验数据撑着。
ROS-Cam在几个主流数据集上的表现,确实能看出真本事。
先看运行时间,随着帧数增加,它的时间是线性增长的。
这跟有些方法帧数一多就呈指数级变慢比,优势太明显了,要是处理长视频,ROS-Cam能省不少时间。
再看新视角合成效果,iPhone数据集上,它生成的图像和真实场景的相似度能到0.92,比基线模型高不少;NeRF-DS数据集上,PSNR值也比3R模型高了3个多dB。
其实,这差距肉眼都能看出来,生成的画面更真实,细节也更清楚。
相机Pose对比也很亮眼,MPI-Sintel数据集上,平移误差降到0.5厘米,旋转误差0.3度,比COLMAP准太多了。
搞视觉定位的都知道,误差少一点,后续的三维重建、视频生成效果都会好一大截。
这技术不光实验室里行,落地到实际场景也有用。
比如自动驾驶,特斯拉FSD的视觉定位在复杂路况下偶尔会有误差,ROS-Cam能把这误差减少一半。
更何况现在交通运输部也在推自动驾驶技术,这正好符合行业需求。
元宇宙领域也用得上,鼓浪屿、工体的元宇宙项目都在用NeRF技术,ROS-Cam能让实时渲染效率提40%,虚拟角色和场景交互也更流畅。
当然,这技术也不是完美的,比如多模态融合、轻量化部署这些还能再挖挖潜力。
但不管怎么说,ROS-Cam算是突破了传统方法的局限,只用RGB视频就解决了动态场景的相机参数预测问题。
以后要是代码开源了,说不定会有更多团队基于它做优化。
毫无疑问,这对自动驾驶、元宇宙这些领域的发展是个大助力。
我还挺期待看到它落地后的实际效果,毕竟能解决实际痛点的技术,才是真有用的技术。
相关文章
最近NeurIPS 2025放出了一批接收论文,其中一篇Spotlight挺有意思。美国伊利诺伊大学香槟分校的团队搞出个叫ROS-Cam的方法,就靠一...
2025-10-06 0
《科创板日报》10月5日讯马斯克旗下脑机接口公司Neuralink向同行评审期刊提交了其首项人体研究数据,向科学透明度迈出了重要一步。据媒体10月5日...
2025-10-06 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自动连接,用户只要开启...
2025-10-06 6
微乐山西麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“必赢...
2025-10-06 17
加拿大:ISED推迟执行RSS-HAC Issue 2至2028年1月1日 2025年6月4日,加拿大创新、科学和经济发展部 (ISED 宣布,手机...
2025-10-06 23
金融界7月1日消息,有投资者在互动平台向埃斯顿提问:公司的二代机器人产品用的是否是鸿道操作系统?公司回答表示:您好,感谢您对公司的关注!公司参股的埃斯...
2025-10-06 10
金融界2025年7月1日消息,国家知识产权局信息显示,山东锋士信息技术有限公司取得一项名为“一种基于渐进式分心挖掘的遥感图像变化检测方法及系统”的专利...
2025-10-06 12
公众号记得加星标⭐️,第一时间看推送不会错过。大型语言模型(LLMs)正在迅速逼近当代计算硬件的极限。例如,据估算,训练GPT-3大约消耗了1300兆...
2025-10-06 7
发表评论