首页 今日快讯文章正文

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

今日快讯 2025年10月17日 18:35 0 admin

现在的多模态AI能看图说话、分析视频,但你可能没发现,它大概率没“看懂”视觉内容的细节。

比如给它看“小朋友放风筝”的图,它能说出画面元素,可把图剪成小块打乱,它就分不清哪块是风筝线、哪块是草坪了。

最近南洋理工大学团队戳中了这个痛点:现在的AI太“偏科”,学东西围着文字转,视觉像凑数的配角。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

就像学生只会对着图片写作文,却看不懂图片的布局和细节,不是能力不够,是之前的训练没教它“怎么看”。

为了让AI真看懂,团队想了个简单办法:让AI玩拼图!

这个叫VisualJigsaw的方法,核心就是把视觉内容拆成小块打乱,让AI拼回去。而且超省事,不用额外标注数据,也不用复杂的视觉生成功能,成本低还好用。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

具体怎么玩?针对图片、视频、3D三种内容,规则不一样:

图片拼图:像玩纸质拼图,把图切成大小相同的小方块打乱,让AI根据细节(比如半朵花、一片叶)拼回原样,逼它搞懂空间关系。

视频拼图:按时间把视频切成小片段(比如15秒的“煮面条”切成5段),打乱后让AI按动作逻辑(拿面→烧水→放面)排顺序,练它的时间感知。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

3D拼图:从3D图(比如户型图)里选几个点(沙发角、门口),打乱序号让AI按“近远”排序,帮它建立空间感。

为了让AI认真玩,团队还设计了“打分规则”:全对给满分,部分对按比例打折(防蒙混),拼得乱给0分。再用GRPO算法帮AI复盘错题,慢慢养成仔细观察的习惯。

测试效果很惊喜:图片理解上,AI像开了窍之前分不清相似裙子的领口,现在能辨出圆领和V领。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

看街景图不再只说“有行人汽车”,还能说出“便利店在马路左、红绿灯在对面”,细粒度感知和空间理解都提上来了。

视频理解的进步更实用:分析监控时,AI能准判事件顺序(落包→捡包→交保安)。

在AoTBench(区分“倒果汁”和“杯子空了”)、CVBench(找两段做饭视频的“切菜”共性)这类任务里,表现比没练过的AI好太多。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

3D理解提升更明显:在DA-2K(判书架哪本书更近)里准确率大涨,而且不是“偏科”看单视角、多视角3D图。

或是第一人称VR视频,都能懂空间关系,整体3D感知能力变强了。

其实VisualJigsaw不只是让AI多了个技能,更给多模态AI指了明路:之前总想着让AI“会说话、写文案”,却忘了“看懂”才是基础。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

就像教孩子先看清“苹果是圆的”,再教他说“这是红苹果”。

以后要是有更多让AI玩“找不同”“搭积木”的训练方法,它肯定能更懂视觉内容,毕竟只有真看懂了,才不会把“雪山说成白云”“猫尾说成沙发腿”。

AI拼图破解视觉盲区!碎片化训练唤醒AI空间感知,传统训练被颠覆

现在的AI像刚学看世界的孩子,“玩拼图”只是第一步。

随着更多简单实用的训练方法出现,它早晚会真正看懂这个五彩的视觉世界。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap