最近Insta360影石研究院联合合作高校出了份全景视觉的综述,说实话,这东西对做AI和计算机视觉的人来说,含金量真不低。团队扒了300多篇论文,覆盖...
2025-10-06 1
最近Insta360影石研究院联合合作高校出了份全景视觉的综述,说实话,这东西对做AI和计算机视觉的人来说,含金量真不低。
团队扒了300多篇论文,覆盖20多个代表性任务,最核心的是第一次把“透视-全景gap”当主线,把全景视觉的问题、解法和未来都说透了。
而且他们还放了论文链接、项目地址,甚至在招人,想做世界模型、多模态大模型的同学,简历可以投research@insta360.com,这机会确实挺实在。
先得搞明白,全景图和咱们平时看的透视图根本不是一回事。
透视图是多数CV任务的标准输入,就盯着眼前一块区域。
但全景图不一样,比如常用的等距矩形投影ERP图,能把360°的空间都装进去,连头顶天空和脚下地面都不落下。
可把球面的东西展成平面,麻烦就来了。
Insta360的综述里提了三大“gap”,这也是透视算法用不了的根源。
第一个是几何畸变,之前看全景图总觉得两极地方怪怪的,现在才知道是球面转平面时拉太狠了,北极的房子能被拉成细长条,形状全变了。
第二个是非均匀采样,赤道附近的像素挤得慌,极区的又特别稀,同一棵树在赤道看着清楚,到极区就模糊了。
第三个更头疼,ERP图的左右边界在球面上是挨着的,但二维图上被切开了,模型学的时候总断片,这连续性问题太磨人。
本来以为之前的全景综述能把这些说清楚,后来发现不是,多数综述都是按单一任务捋,比如先讲分割再讲检测,没把透视和全景的差异说透。
但这份不一样,从数据到算法再到应用,都围着“透视到全景的gap”展开,如此看来,想入门全景视觉的人,先看这个能少走不少弯路。
讲完了gap的问题,接下来就得说说怎么解决,综述里把方法归了类,还画了图,一看就懂。
最常用的是两类,Distortion-Aware(失真感知)和Projection-Driven(投影驱动),老实讲,选哪个真不是随便来的,得看具体要做啥任务。
先说说失真感知的方法,它直接在ERP图上做文章,比如用自适应注意力补偿极区的问题。
好处是不丢信息,还能和主流的模型兼容,端到端设计也简单。
但缺点也明显,极区的畸变还是没法完全消,要是做深度估计、光流这种对几何精度要求高的任务,它就有点hold不住了。
举个例子,用它做全景超分辨率,整体画面是连贯的,但极区的文字还是模糊,这就是残余畸变的锅。
再看投影驱动的方法,思路挺有意思,把球面换成立方体、切平面这些形状,拆成多个子视图,这样畸变就小多了。
而且它能直接用透视模型的成果,做几何敏感任务特别厉害,比如深度估计的精度比失真感知高不少。
但麻烦也跟着来,多视图得额外做融合,计算和存储成本都上去了,有些投影还得定制网络结构。
比如自动驾驶里用它处理全景数据,精度是够了,但计算时间比失真感知多了一截,这也是没办法的事。
选策略的时候还得灵活,比如超分辨率,要是做视频播放、追求画面连贯,就用失真感知;要是做结构重建、得保证几何准,就选投影驱动。
如此看来,选对方法比硬套算法重要多了,不然问题没解决,还白费功夫。
这份综述最实用的地方,是把20多个全景任务按“增强与评估、理解、多模态、生成”分了类,每个任务该用啥方法都标得清清楚楚。
比如分割、修复适合失真感知,深度估计、光流适合投影驱动,相当于给人一张“任务-方法”对照表,不用再瞎试了。
现在全景领域还有些新趋势,比如Diffusion生成式模型,在全景文生图、视频生成里用得越来越多,重点是保证语义连贯和可控性;还有3DGS技术,做新视角合成、场景重建时,渲染又快又清楚。
多模态对齐也是个热点,比如把音频、文本和全景结合,做视觉问答的时候,能更准确地识别描述区域的物体。
但这一块的论文虽然多,真正落地的还少,还得再磨。
要让全景视觉从“可用”到“好用”,还有三个短板得补。
第一个是数据,搞不清为啥现在全景数据这么少,不光缺大规模的跨任务数据,场景还特别单一,大多是室内和城市,自然环境、空中场景基本没有,标注还特别贵,360Cities数据集有100多万张全景图,但带深度、分割标注的才10%。
Insta360说计划2026年公开带细标注的数据集,这对研究者来说真是个好消息。
第二个是模型,现在还没有专门的全景基础模型,要么把透视模型改一改,要么做个小模块贴上去。
Waymo自动驾驶团队试过把全景专家模块和预训练模型结合,结果障碍物检测准确率提了15%,这说明往这个方向走是对的。
但多模态对齐还是难,语言、音频和全景的空间关系总对不上,这事儿还得再琢磨。
第三个是落地,现在全景在自动驾驶、XR、数字孪生里都有用,但还不够深入。
比如故宫用全景做数字文物,能360°展示,但结合三维重建还原文物细节的时候,精度还不够。
安防、医疗这些行业也需要,但得考虑部署成本和合规性,不是随便就能上的。
最后说两句,其实透视到全景,根本不是改改投影那么简单,而是数据、模型、应用一整套的升级。
Insta360这份综述最有价值的,就是把“透视-全景gap”说透了,给研究者和工程师指了条明路,按任务选方法,按场景找落地路径。
想做前沿AI研究的同学,Insta360这个招聘机会真可以看看,毕竟能跟着做全景视觉这种有前景的方向。
而且整个领域也需要更多人一起完善数据和基准,不然光靠几支团队,想让全景视觉真正好用、落地,还得等挺久。
这份综述不光是总结过去,更是给全景视觉的未来搭了个架子,就看后面大家怎么填内容了。
相关文章
最近Insta360影石研究院联合合作高校出了份全景视觉的综述,说实话,这东西对做AI和计算机视觉的人来说,含金量真不低。团队扒了300多篇论文,覆盖...
2025-10-06 1
36氪获悉,近日,索尼最新发布的双芯超旗舰头戴降噪耳机WH-1000XM6与QQ音乐“臻品音质认证”达成合作,双方将在音频技术领域的深度协同。据介绍,...
2025-10-06 12
9月30日,拓竹科技(简称“拓竹”)在深圳湾万象城开设全球首家直营旗舰店。这是拓竹在登顶全球消费级3D打印机市场后迈出的重要一步。超大的3D打印沙盘,...
2025-10-06 1
“来尝一尝刚出炉的月饼!”在北京中塔苏宁易购Max店,工作人员正在演示如何使用蒸烤一体机制作节日美食。“现在消费者更注重家电的智能感和体验感。”北京中...
2025-10-06 0
10月1日,技术人员在国家管网北方管道秦皇岛作业区内巡检。 河北日报记者 赵杰摄10月1日,中铁十四局施工人员奋战在雄忻高铁跨保沧高速特大桥施工现场。...
2025-10-06 0
9月30日清晨8点30分,位于赤峰市宁城县的海森宠物科技(内蒙古 有限公司负责人张春学打开跨境电商综合服务平台,指尖轻点,开始为一批出口货物进行线上报...
2025-10-06 0
当万家灯火共庆国庆、中秋佳节之时,有这样一群身影依然奔波于城市的大街小巷——他们是快递小哥,用脚步丈量责任,以坚守传递温暖,将一份份思念与惊喜送到千家...
2025-10-06 0
发表评论