本篇文章给大家谈谈新上游大厅有开挂辅助吗,以及新上游大厅辅助器下载对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 龙之谷现有角色及转职。 1、...
2025-10-20 0
本工作由加州大学洛杉矶分校与字节 Seed 等团队联合完成。
在扩散模型持续引领视觉生成浪潮的今天,图像生成早已臻于极致,但视频生成仍被一个关键瓶颈困住——时长限制。目前多数模型还停留在数秒短视频的生成,Self-Forcing++ 让视频生成首次跨入 4 分钟高质量长视频时代,且无需任何长视频数据再训练。先展示一段 100 秒的生成视频:
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
在扩散模型驱动的视觉生成领域,从 Sora、Wan、Hunyuan-Video 到 Veo,视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制:只能生成数秒的短片段。
这背后的原因在于架构层面的「先天缺陷」:
这些问题共同导致:即使最先进的自回归视频扩散模型,也难以在 10 秒以上保持画面一致与运动连贯。
Self-Forcing++ 的关键洞察是:
教师模型虽然只会生成 5 秒视频,但它依然掌握纠错长视频失真的能力。
研究者利用这一点,让学生模型先自己生成长视频(即使这些视频已经开始「崩坏」),再用教师模型来纠正它的错误。
经过这种「生成→失真→再纠错→再学习」循环,模型逐步学会了在长时间尺度下自我修复和稳态生成。这一机制让 Self-Forcing++ 无需任何长视频标注,就能把生成时长从 5 秒扩展到 100 秒,甚至 4 分钟 15 秒(达到位置编码极限的 99.9%)。
1️⃣ 反向噪声初始化(Backward Noise Initialization)
在传统短视频蒸馏中,模型每次都从随机噪声生成。
Self-Forcing++ 改为在长视频 roll-out 后,把噪声重新注入到已生成的序列中,使后续帧与前文保持时间连续性。
这一步相当于让模型「重启但不失忆」,避免时间割裂。
2️⃣ 扩展分布匹配蒸馏(Extended DMD)
作者将原本只在 5 秒窗口内进行的教师-学生分布对齐,扩展为滑动窗口蒸馏:
学生先生成 100 秒长视频 → 随机抽取其中任意 5 秒片段 → 用教师分布校正该片段。
这样,教师不必生成长视频,也能「局部监督」学生的长序列表现,从而实现长期一致性学习。
3️⃣ 滚动 KV 缓存(Rolling KV Cache)
以往自回归模型(如 CausVid)在推理时使用滚动缓存,但训练时却仍用固定窗口,造成严重偏差。
Self-Forcing++ 在训练阶段也同步采用滚动缓存,实现真正的训练-推理对齐,彻底消除了「曝光漂移」和「帧重复」的问题。
进一步优化:
强化学习加持的时间平滑
在部分极长视频中,模型仍可能出现突然跳帧或场景突变。
研究者借鉴强化学习中的 Group Relative Policy Optimization (GRPO) 框架,引入光流平滑奖励(Optical-Flow Reward),让模型通过惩罚光流突变来学习更自然的运动过渡。结果显示:光流方差显著下降,视频流畅度显著提升。整体的算法可以归纳为下面的流程。
测试设置
主要成果
以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的测试结果。
如下图所示,在 0-100 秒的生成结果上,Self-Forcing++ 都能保持很好的稳定性,基线模型大多数都会经历严重的质量下降,比如过曝光和错误累积。
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
在这些长视频中,Self-Forcing++ 始终保持稳定亮度与自然运动,视觉效果几乎无明显劣化。
作者进一步探究「算力与时长」关系,在可视化生成过程中有以下发现:
这说明可能无需长视频数据,只要扩展训练预算,即可延展生成时长。
虽然自回归视频生成已经能达到分钟级别,但是目前依旧有以下问题有待提高:
️
更多演示视频和我们的方法请参考我们的主页。
相关文章
本篇文章给大家谈谈新上游大厅有开挂辅助吗,以及新上游大厅辅助器下载对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 龙之谷现有角色及转职。 1、...
2025-10-20 0
本工作由加州大学洛杉矶分校与字节 Seed 等团队联合完成。在扩散模型持续引领视觉生成浪潮的今天,图像生成早已臻于极致,但视频生成仍被一个关键瓶颈困住...
2025-10-20 0
【CNMO科技消息】CNMO注意到,10月20日,真我手机官微宣布,真我GT8搭载与Pro版本同款的理光GR影像系统,将于10月21日15:00举行新...
2025-10-20 0
锅碗瓢盆一应俱全、能动手又能吃的“迷你厨房”是颇得青睐的网红玩具,但“迷你厨房”安全吗?日前,一些地方对线上购买的两款“儿童迷你厨房真煮玩具”进行检验...
2025-10-20 0
智东西编译 | 程茜编辑 | 云鹏智东西10月20日消息,百度10月16日开源的多语言文档解析模型PaddleOCR-VL,连续三天霸榜Hugging...
2025-10-20 0
照一下就可以分析人的面部情况,并指导你用什么化妆品、适合什么妆容的智能化妆镜;可以动态生成盲文和触觉图形信息的盲人计算机;利用每日产生的咖啡渣制做出服...
2025-10-20 0
IT之家 10 月 20 日消息,制造商迎广(InWin)现已发布一款隶属 iBuildiShare 系列产品线的 SHIFT 开放式机架“机箱”,其...
2025-10-20 0
10月7日,诺贝尔奖的荣光再次洒向免疫学领域。三位国外科学家——日本免疫学家Shimon Sakaguchi、美国免疫学家Fred Ramsdell与...
2025-10-20 0
发表评论