AI图像生成圈最近热闹得像开了场技术发布会。前阵子,谢赛宁团队刚宣告在图像生成领域打拼多年的VAE正式“退役”,不少人还在琢磨这行业要变天,清华大学和...
2025-10-31 0
AI图像生成圈最近热闹得像开了场技术发布会。
前阵子,谢赛宁团队刚宣告在图像生成领域打拼多年的VAE正式“退役”,不少人还在琢磨这行业要变天,清华大学和快手可灵团队就带着新家伙接了棒。
一款名叫SVG的无VAE潜在扩散模型,直接把训练效率拉高62倍,生成速度提快35倍,刚亮相就成了圈里的焦点。
要是你不懂AI术语也别急,这事儿说白了就是:以前生成一张逼真的猫图,模型得“死磕”几百万步才能学会,现在几分钟就能搞定,还能精准控制猫的颜色、体型,甚至顺便认出这是只布偶猫。
这背后,全是因为VAE这个“老功臣”的短板终于被补上了。
SVG多厉害之前,得先聊聊VAE为啥突然“不香了”。
在过去的“VAE+扩散模型”组合里,VAE就像个“图像压缩师”,负责把高清图片变成一堆简化的“数字密码”(潜空间特征),再交给扩散模型学习怎么生成新图。
但这个“压缩师”有个致命毛病,**语义纠缠**,说白了就是把所有信息都揉进同一个“密码本”里,不分门类也不分主次。
就像你想改下文档里的一个词,结果整段文字的语序、标点全乱了。
放在生图上更明显:想把黑猫改成橘猫,调完参数一看,猫的体型从胖变瘦,表情从温顺变凶狠,甚至连背景里的沙发都换成了椅子,典型的“牵一发而动全身”。
这毛病直接坑了两件事:一是训练慢得让人崩溃,扩散模型得对着这堆乱码算几百万步,才能勉强分清“猫”和“狗”的特征边界;二是生成过程太繁琐,得一步步解码几十上百步,才能出一张清晰图。
更要命的是,这“密码本”还特专一,除了生图啥也干不了,想让它帮忙识别图像、分割语义,门儿都没有。
VAE掉的坑,自然有人抢着填。
谢赛宁团队的RAE技术选了条“专精路线”,有点像“拿来主义”:直接用现成的DINOv2、MAE这些预训练好的“图像解码器”,不折腾编码器,一门心思优化怎么把图生成得又快又好。
简单说,就是把所有精力都放在“生图”这一件事上,算是把单点能力做到了极致。
但清华大学和快手可灵团队想得更远,他们搞的SVG走了“全能路线”,不仅要生图快、质量高,还得能应对识别、分割这些其他任务。
两者的核心差别,就在于怎么处理那堆“数字密码”:RAE是直接用现成的“密码本”,SVG则是重新打造了一本分类清晰的“智能密码本”。
这个“智能密码本”的关键,在于SVG没有把所有信息混在一起,而是搞了个“语义+细节”的双分支设计,相当于给图像信息做了次精准分工。
SVG能这么牛,首先是找对了“金牌帮手”,Meta刚开源的DINOv3预训练模型。
这可不是普通模型,带着70亿参数,啃过17亿张图像的“硬骨头”,是目前视觉领域的“学霸”级选手。
它最厉害的地方是不用人工标注,能自己从海量图像里摸清规律,精准抓住高层语义信息,比如一眼分清“猫”“狗”“汽车”的特征边界,从根上解决了VAE“纠缠不清”的问题。
但团队很快发现,这位“学霸”有点“抓大放小”:能分清是猫还是狗,却记不住猫的毛色是橘色还是黑色,毛是顺的还是卷的,这些颜色、纹理等高频细节全丢了。
于是他们又加了个“小助手”:一个轻量级的残差编码器,专门负责记这些被漏掉的“细枝末节”。
光有“学霸”和“小助手”还不够,俩人得说同一种“语言”才能配合好。
SVG专门加了个“翻译官”,分布对齐机制。
它能调整残差编码器输出的细节信息,让这些数据的“数值脾气”和DINOv3的语义信息完全对上,避免细节乱入打乱语义结构。
实验数据也证明这步有多关键:去掉分布对齐后,生成图像的FID值(衡量真实度的核心指标,越低越好)从6.12涨到9.03,画面真实度直接降了一大截。
AI圈从不缺噱头,真本事得靠数据说话。
SVG的表现,在行业公认的“试金石”ImageNet数据集上(这是个有1400多万张标注图像的大数据库,专门考校模型本事)堪称惊艳。
训练效率上,SVG-XL模型只练了80个epoch(可以理解为训练轮次),不用额外引导就能达到6.57的FID值,而同样规模的VAE模型SiT-XL才22.58,差了整整3倍多。
要是多练一会儿到1400个epoch,FID能降到1.92,快赶上最顶尖的生成模型了。
要知道,以前的VAE模型想达到这水平,得花几十倍的时间。
生成速度更不用说,扩散模型生图得靠“采样去噪”,步数越少越快。
SVG-XL只要5步采样,gFID值(更严格的真实度指标)就有12.26,而用SD-VAE和VA-VAE的SiT-XL,最低都要69.38,慢得不是一点半点。
这意味着以后生图可能不用等几十秒,一两秒就能出结果。
最绝的是SVG的“全能性”。
它的特征空间继承了DINOv3的本事,不用额外训练,就能直接干图像分类、语义分割这些活儿。
在ImageNet-1K分类任务里,Top-1精度达到81.8%,和原版DINOv3几乎没差;在ADE20K语义分割任务中,mIoU达46.51%,快赶上专门的分割模型了。
这要是换以前的VAE,想都别想,毕竟以前的“密码本”除了生图,连简单的图像识别都做不了。
攻关这么牛的技术,背后是学界和业界的强强联手。
项目负责人郑文钊是加州大学伯克利分校的博士后,之前在清华大学自动化系读博,一直深耕人工智能和深度学习领域,算是技术圈的“老炮儿”。
团队里的史明磊和王皓霖也来自清华自动化系,目前还在读博士,研究重点就是多模态生成模型,年轻人的创新劲儿十足,史明磊甚至还自己创办了一家专注AI应用的公司,打算把技术落地到实际场景里。
来自快手可灵团队的ZiyangYuan、XiaoshiWu、XintaoWang和PengfeiWan则带来了产业界的经验,其中PengfeiWan还是快手可灵视频生成模型的负责人,对生成式AI的落地需求门儿清。
学界懂技术深度,业界懂应用痛点,这波合作算是把“产学研”的优势拉满了。
从谢赛宁团队的RAE到清华快手的SVG,虽然技术路线各有侧重,但都指向了同一个信号:预训练视觉模型的特征空间,已经具备了替代VAE的能力。
以前生图靠VAE“粗暴压缩”,现在靠DINOv3这类预训练模型“精准解析”,不仅效率翻了几十倍,还能实现“一专多能”。
这可能意味着,AI生图要从“单一功能”转向“全能服务”了,以后一个模型既能生图,又能识别、分割,甚至能做深度估计,应用场景会宽得多。
对我们普通人来说,这意味着以后用AI生图会更快、更精准;对行业来说,这可能会让生成式AI的落地成本大幅降低,不管是自动驾驶的图像识别,还是医疗影像的分析,都可能因此受益。
VAE的“退役”不是结束,而是AI视觉技术更成熟的开始。
相关文章
AI图像生成圈最近热闹得像开了场技术发布会。前阵子,谢赛宁团队刚宣告在图像生成领域打拼多年的VAE正式“退役”,不少人还在琢磨这行业要变天,清华大学和...
2025-10-31 0
青岛日报社/观海新闻10月30日讯 30日下午,“产业链上的崂山好品牌”现场媒体见面会第2场—人工智能产业链专场活动在中科曙光全球研发总部基地举行。观...
2025-10-31 0
1956 年,巴西利亚横空出世。这座新城让建筑师得以挣脱旧有格局,创造出全新的空间语言与城市形态,造就了一座被列入「世界遗产」的现代城市。历史反复证明...
2025-10-31 0
中新社武汉7月23日电 (记者 武一力 第十四届中国国际服务外包交易博览会(简称“服博会” 23日在武汉开幕。中国国际投资促进会会长房爱卿表示,数字服...
2025-10-31 7
今天给各位分享微信微乐打麻将想买个挂的知识,其中也会对微信微乐麻将有没有挂进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!微信为...
2025-10-31 0
没想到啊没想到,微信近期和打了鸡血一样疯狂的推出新功能,本次更是直接添加了「自动发送消息」这种实用功能。在前段时间,微信新增了聊天框的全新语音转文字独...
2025-10-31 15
阅读此文前,诚邀您点点右上方的“关注”,既方便您进行讨论与分享,还能及时阅读最新内容,感谢您的支持。2025年7月19日,西藏林芝的山谷间传来一声号令...
2025-10-31 15
证券之星消息,中际旭创(300308 07月20日在投资者关系平台上答复投资者关心的问题。投资者提问:董秘,美国计划对马来西亚和泰国实施AI芯片限制,...
2025-10-31 16
发表评论