Self-Forcing++：让自回归视频生成模型突破 4 分钟时长极限

今日新闻 2025年10月20日 14:57 0 admin

本工作由加州大学洛杉矶分校与字节 Seed 等团队联合完成。

在扩散模型持续引领视觉生成浪潮的今天，图像生成早已臻于极致，但视频生成仍被一个关键瓶颈困住——时长限制。目前多数模型还停留在数秒短视频的生成，Self-Forcing++ 让视频生成首次跨入 4 分钟高质量长视频时代，且无需任何长视频数据再训练。先展示一段 100 秒的生成视频：

论文标题：Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
论文地址：https://arxiv.org/abs/2510.02283
项目主页： https://self-forcing-plus-plus.github.io
代码：https://github.com/justincui03/Self-Forcing-Plus-Plus

https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4

研究背景：

为什么长视频生成如此困难？

在扩散模型驱动的视觉生成领域，从 Sora、Wan、Hunyuan-Video 到 Veo，视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制：只能生成数秒的短片段。

这背后的原因在于架构层面的「先天缺陷」：

Transformer 的非因果性 —— 传统扩散 Transformer (DiT) 需要同时看到所有帧，无法自然地逐帧扩展；

训练-推理不匹配 —— 模型在训练时只见过 5 秒短片，却在推理时要生成几十秒甚至几分钟；

误差累积 —— 教师模型在每一帧提供强监督，但学生模型在长序列中没有应对逐步误差的能力；

过曝与冻结 —— 长时间生成后常出现画面静止、亮度漂移、运动中断等「灾难性崩塌」。

这些问题共同导致：即使最先进的自回归视频扩散模型，也难以在 10 秒以上保持画面一致与运动连贯。

核心思想：

教师模型即世界模型

Self-Forcing++ 的关键洞察是：

教师模型虽然只会生成 5 秒视频，但它依然掌握纠错长视频失真的能力。

研究者利用这一点，让学生模型先自己生成长视频（即使这些视频已经开始「崩坏」），再用教师模型来纠正它的错误。

经过这种「生成→失真→再纠错→再学习」循环，模型逐步学会了在长时间尺度下自我修复和稳态生成。这一机制让 Self-Forcing++ 无需任何长视频标注，就能把生成时长从 5 秒扩展到 100 秒，甚至 4 分钟 15 秒（达到位置编码极限的 99.9%）。

技术解析：

关键的三步让模型稳定生成超长视频

1️⃣ 反向噪声初始化（Backward Noise Initialization）

在传统短视频蒸馏中，模型每次都从随机噪声生成。

Self-Forcing++ 改为在长视频 roll-out 后，把噪声重新注入到已生成的序列中，使后续帧与前文保持时间连续性。

这一步相当于让模型「重启但不失忆」，避免时间割裂。

2️⃣ 扩展分布匹配蒸馏（Extended DMD）

作者将原本只在 5 秒窗口内进行的教师-学生分布对齐，扩展为滑动窗口蒸馏：

学生先生成 100 秒长视频 → 随机抽取其中任意 5 秒片段 → 用教师分布校正该片段。

这样，教师不必生成长视频，也能「局部监督」学生的长序列表现，从而实现长期一致性学习。

3️⃣ 滚动 KV 缓存（Rolling KV Cache）

以往自回归模型（如 CausVid）在推理时使用滚动缓存，但训练时却仍用固定窗口，造成严重偏差。

Self-Forcing++ 在训练阶段也同步采用滚动缓存，实现真正的训练-推理对齐，彻底消除了「曝光漂移」和「帧重复」的问题。

进一步优化：

强化学习加持的时间平滑

在部分极长视频中，模型仍可能出现突然跳帧或场景突变。

研究者借鉴强化学习中的 Group Relative Policy Optimization (GRPO) 框架，引入光流平滑奖励（Optical-Flow Reward），让模型通过惩罚光流突变来学习更自然的运动过渡。结果显示：光流方差显著下降，视频流畅度显著提升。整体的算法可以归纳为下面的流程。