首页 AI科技文章正文

AI生图升级!清华快手甩王炸,新模型生图快35倍,还能当全能选手

AI科技 2025年10月31日 05:42 0 admin

AI图像生成圈最近热闹得像开了场技术发布会。

前阵子,谢赛宁团队刚宣告在图像生成领域打拼多年的VAE正式“退役”,不少人还在琢磨这行业要变天,清华大学和快手可灵团队就带着新家伙接了棒。

一款名叫SVG的无VAE潜在扩散模型,直接把训练效率拉高62倍,生成速度提快35倍,刚亮相就成了圈里的焦点。

AI生图升级!清华快手甩王炸,新模型生图快35倍,还能当全能选手

要是你不懂AI术语也别急,这事儿说白了就是:以前生成一张逼真的猫图,模型得“死磕”几百万步才能学会,现在几分钟就能搞定,还能精准控制猫的颜色、体型,甚至顺便认出这是只布偶猫。

这背后,全是因为VAE这个“老功臣”的短板终于被补上了。

VAE到底“差”在哪?

SVG多厉害之前,得先聊聊VAE为啥突然“不香了”。

在过去的“VAE+扩散模型”组合里,VAE就像个“图像压缩师”,负责把高清图片变成一堆简化的“数字密码”(潜空间特征),再交给扩散模型学习怎么生成新图。

但这个“压缩师”有个致命毛病,**语义纠缠**,说白了就是把所有信息都揉进同一个“密码本”里,不分门类也不分主次。

就像你想改下文档里的一个词,结果整段文字的语序、标点全乱了。

放在生图上更明显:想把黑猫改成橘猫,调完参数一看,猫的体型从胖变瘦,表情从温顺变凶狠,甚至连背景里的沙发都换成了椅子,典型的“牵一发而动全身”。

这毛病直接坑了两件事:一是训练慢得让人崩溃,扩散模型得对着这堆乱码算几百万步,才能勉强分清“猫”和“狗”的特征边界;二是生成过程太繁琐,得一步步解码几十上百步,才能出一张清晰图。

更要命的是,这“密码本”还特专一,除了生图啥也干不了,想让它帮忙识别图像、分割语义,门儿都没有。

有人专精生图,有人要当全能选手

VAE掉的坑,自然有人抢着填。

谢赛宁团队的RAE技术选了条“专精路线”,有点像“拿来主义”:直接用现成的DINOv2、MAE这些预训练好的“图像解码器”,不折腾编码器,一门心思优化怎么把图生成得又快又好。

简单说,就是把所有精力都放在“生图”这一件事上,算是把单点能力做到了极致。

但清华大学和快手可灵团队想得更远,他们搞的SVG走了“全能路线”,不仅要生图快、质量高,还得能应对识别、分割这些其他任务。

两者的核心差别,就在于怎么处理那堆“数字密码”:RAE是直接用现成的“密码本”,SVG则是重新打造了一本分类清晰的“智能密码本”。

这个“智能密码本”的关键,在于SVG没有把所有信息混在一起,而是搞了个“语义+细节”的双分支设计,相当于给图像信息做了次精准分工。

AI生图升级!清华快手甩王炸,新模型生图快35倍,还能当全能选手

SVG的“秘诀”,找对帮手,还得会“磨合”

SVG能这么牛,首先是找对了“金牌帮手”,Meta刚开源的DINOv3预训练模型。

这可不是普通模型,带着70亿参数,啃过17亿张图像的“硬骨头”,是目前视觉领域的“学霸”级选手。

它最厉害的地方是不用人工标注,能自己从海量图像里摸清规律,精准抓住高层语义信息,比如一眼分清“猫”“狗”“汽车”的特征边界,从根上解决了VAE“纠缠不清”的问题。

但团队很快发现,这位“学霸”有点“抓大放小”:能分清是猫还是狗,却记不住猫的毛色是橘色还是黑色,毛是顺的还是卷的,这些颜色、纹理等高频细节全丢了。

于是他们又加了个“小助手”:一个轻量级的残差编码器,专门负责记这些被漏掉的“细枝末节”。

光有“学霸”和“小助手”还不够,俩人得说同一种“语言”才能配合好。

SVG专门加了个“翻译官”,分布对齐机制。

它能调整残差编码器输出的细节信息,让这些数据的“数值脾气”和DINOv3的语义信息完全对上,避免细节乱入打乱语义结构。

实验数据也证明这步有多关键:去掉分布对齐后,生成图像的FID值(衡量真实度的核心指标,越低越好)从6.12涨到9.03,画面真实度直接降了一大截。

训练快62倍,还能身兼数职

AI圈从不缺噱头,真本事得靠数据说话。

SVG的表现,在行业公认的“试金石”ImageNet数据集上(这是个有1400多万张标注图像的大数据库,专门考校模型本事)堪称惊艳。

训练效率上,SVG-XL模型只练了80个epoch(可以理解为训练轮次),不用额外引导就能达到6.57的FID值,而同样规模的VAE模型SiT-XL才22.58,差了整整3倍多。

要是多练一会儿到1400个epoch,FID能降到1.92,快赶上最顶尖的生成模型了。

要知道,以前的VAE模型想达到这水平,得花几十倍的时间。

生成速度更不用说,扩散模型生图得靠“采样去噪”,步数越少越快。

AI生图升级!清华快手甩王炸,新模型生图快35倍,还能当全能选手

SVG-XL只要5步采样,gFID值(更严格的真实度指标)就有12.26,而用SD-VAE和VA-VAE的SiT-XL,最低都要69.38,慢得不是一点半点。

这意味着以后生图可能不用等几十秒,一两秒就能出结果。

最绝的是SVG的“全能性”。

它的特征空间继承了DINOv3的本事,不用额外训练,就能直接干图像分类、语义分割这些活儿。

在ImageNet-1K分类任务里,Top-1精度达到81.8%,和原版DINOv3几乎没差;在ADE20K语义分割任务中,mIoU达46.51%,快赶上专门的分割模型了。

这要是换以前的VAE,想都别想,毕竟以前的“密码本”除了生图,连简单的图像识别都做不了。

背后的团队,清华博士和快手老兵联手

攻关这么牛的技术,背后是学界和业界的强强联手。

项目负责人郑文钊是加州大学伯克利分校的博士后,之前在清华大学自动化系读博,一直深耕人工智能和深度学习领域,算是技术圈的“老炮儿”。

团队里的史明磊和王皓霖也来自清华自动化系,目前还在读博士,研究重点就是多模态生成模型,年轻人的创新劲儿十足,史明磊甚至还自己创办了一家专注AI应用的公司,打算把技术落地到实际场景里。

来自快手可灵团队的ZiyangYuan、XiaoshiWu、XintaoWang和PengfeiWan则带来了产业界的经验,其中PengfeiWan还是快手可灵视频生成模型的负责人,对生成式AI的落地需求门儿清。

学界懂技术深度,业界懂应用痛点,这波合作算是把“产学研”的优势拉满了。

结语

从谢赛宁团队的RAE到清华快手的SVG,虽然技术路线各有侧重,但都指向了同一个信号:预训练视觉模型的特征空间,已经具备了替代VAE的能力。

以前生图靠VAE“粗暴压缩”,现在靠DINOv3这类预训练模型“精准解析”,不仅效率翻了几十倍,还能实现“一专多能”。

AI生图升级!清华快手甩王炸,新模型生图快35倍,还能当全能选手

这可能意味着,AI生图要从“单一功能”转向“全能服务”了,以后一个模型既能生图,又能识别、分割,甚至能做深度估计,应用场景会宽得多。

对我们普通人来说,这意味着以后用AI生图会更快、更精准;对行业来说,这可能会让生成式AI的落地成本大幅降低,不管是自动驾驶的图像识别,还是医疗影像的分析,都可能因此受益。

VAE的“退役”不是结束,而是AI视觉技术更成熟的开始。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap