2016年美国把大疆加入“实体清单”之时,大概不会想到九年后会全然扭转过来。如今的美国无人机产业陷入了“无芯可用”、“无市可争”的双输局面,而大疆仍然...
2025-10-17 0
现在的多模态AI能看图说话、分析视频,但你可能没发现,它大概率没“看懂”视觉内容的细节。
比如给它看“小朋友放风筝”的图,它能说出画面元素,可把图剪成小块打乱,它就分不清哪块是风筝线、哪块是草坪了。
最近南洋理工大学团队戳中了这个痛点:现在的AI太“偏科”,学东西围着文字转,视觉像凑数的配角。
就像学生只会对着图片写作文,却看不懂图片的布局和细节,不是能力不够,是之前的训练没教它“怎么看”。
为了让AI真看懂,团队想了个简单办法:让AI玩拼图!
这个叫VisualJigsaw的方法,核心就是把视觉内容拆成小块打乱,让AI拼回去。而且超省事,不用额外标注数据,也不用复杂的视觉生成功能,成本低还好用。
具体怎么玩?针对图片、视频、3D三种内容,规则不一样:
图片拼图:像玩纸质拼图,把图切成大小相同的小方块打乱,让AI根据细节(比如半朵花、一片叶)拼回原样,逼它搞懂空间关系。
视频拼图:按时间把视频切成小片段(比如15秒的“煮面条”切成5段),打乱后让AI按动作逻辑(拿面→烧水→放面)排顺序,练它的时间感知。
3D拼图:从3D图(比如户型图)里选几个点(沙发角、门口),打乱序号让AI按“近远”排序,帮它建立空间感。
为了让AI认真玩,团队还设计了“打分规则”:全对给满分,部分对按比例打折(防蒙混),拼得乱给0分。再用GRPO算法帮AI复盘错题,慢慢养成仔细观察的习惯。
测试效果很惊喜:图片理解上,AI像开了窍之前分不清相似裙子的领口,现在能辨出圆领和V领。
看街景图不再只说“有行人汽车”,还能说出“便利店在马路左、红绿灯在对面”,细粒度感知和空间理解都提上来了。
视频理解的进步更实用:分析监控时,AI能准判事件顺序(落包→捡包→交保安)。
在AoTBench(区分“倒果汁”和“杯子空了”)、CVBench(找两段做饭视频的“切菜”共性)这类任务里,表现比没练过的AI好太多。
3D理解提升更明显:在DA-2K(判书架哪本书更近)里准确率大涨,而且不是“偏科”看单视角、多视角3D图。
或是第一人称VR视频,都能懂空间关系,整体3D感知能力变强了。
其实VisualJigsaw不只是让AI多了个技能,更给多模态AI指了明路:之前总想着让AI“会说话、写文案”,却忘了“看懂”才是基础。
就像教孩子先看清“苹果是圆的”,再教他说“这是红苹果”。
以后要是有更多让AI玩“找不同”“搭积木”的训练方法,它肯定能更懂视觉内容,毕竟只有真看懂了,才不会把“雪山说成白云”“猫尾说成沙发腿”。
现在的AI像刚学看世界的孩子,“玩拼图”只是第一步。
随着更多简单实用的训练方法出现,它早晚会真正看懂这个五彩的视觉世界。
相关文章
2016年美国把大疆加入“实体清单”之时,大概不会想到九年后会全然扭转过来。如今的美国无人机产业陷入了“无芯可用”、“无市可争”的双输局面,而大疆仍然...
2025-10-17 0
现在的多模态AI能看图说话、分析视频,但你可能没发现,它大概率没“看懂”视觉内容的细节。比如给它看“小朋友放风筝”的图,它能说出画面元素,可把图剪成小...
2025-10-17 0
“AI让人类失业”的论调正从零星预言变为主流共识,福布斯、TechCrunch等媒体纷纷发文预警,全球劳动力市场正面临前所未有的重构。当前,已有大批劳...
2025-10-17 0
你见过考古学家对着一块黑炭直跺脚的样子吗?两千年前维苏威火山一喷,滚烫的火山灰裹着泥浆,把希腊哲学家费洛・德莫斯聊“音乐”“愉悦”的手稿,严严实实地封...
2025-10-17 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自动连接,用户只要开启...
2025-10-17 9
10月17日,红魔游戏手机在深圳前海国际会议中心举行红魔 11 Pro 系列新品发布会。红魔在性能续航帧率三条赛道上长期霸榜,稳居全球电竞手机NO.1...
2025-10-17 0
10月17日,网传华为常务董事、华为云计算CEO张平安受内部处罚,连降三等。南都湾财社记者从内部知情人士处独家获悉,今年9月23日,华为纪律监察委员会...
2025-10-17 0
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-10-17 11
发表评论