来源:市场资讯(来源:中关村智慧城市信息化产业联盟)近期,全国各地多个智慧城市类的项目信息公示,此次再汇总补充一下各省份的智慧城市类项目,新增16各项...
2025-09-23 0
如果告诉你,现在的AI不仅能生成精美的视频,还能同时生成与画面完美同步的声音,你会不会觉得这听起来像科幻电影?然而,这已经成为现实。由StepFun公司联合香港科技大学(广州)、香港科技大学和清华大学的研究团队,在2025年1月发表了一项突破性研究成果——UniVerse-1,这是全球首个能够同时生成协调音频和视频的开源统一模型。这篇题为《UniVerse-1: Unified Audio-Video Generation via Stitching of Experts》的研究论文已在arXiv平台发布(论文编号:arXiv:2509.06155v1 [cs.CV]),感兴趣的读者可以通过https://dorniwang.github.io/UniVerse-1/获取完整资料。
想象一下,如果你要拍摄一部电影,传统方式需要先拍摄画面,然后录制声音,最后在后期制作中让两者同步。而现在,UniVerse-1就像一位神奇的导演,能够凭空创造出一段既有画面又有声音的完整视频,而且声音和画面天然同步,就像真实世界中发生的事情一样。这种技术的意义不仅仅是让视频制作变得更简单,它还为创意产业打开了全新的大门。
这项研究的核心创新在于解决了一个长期困扰AI研究领域的难题:如何让机器同时理解和生成视觉与听觉信息。过去,即使是最先进的AI系统也只能先生成视频,然后再根据视频内容添加声音,这种方式就像先画好一幅画,再根据画面内容配上音乐一样,往往无法做到真正的同步。而UniVerse-1采用了一种全新的"专家缝合"技术,将已经训练好的视频生成专家和音频生成专家巧妙地结合在一起,让它们能够相互配合,共同创造出协调一致的音视频内容。
一、破解音视频同步的世纪难题
要理解UniVerse-1的重要性,我们需要先了解音视频同步生成到底有多困难。设想你正在观看一个人说话的视频,当这个人张嘴说"你好"时,你的耳朵必须在同一时刻听到"你好"这两个字的声音,任何微小的偏差都会让人感觉不自然。对于人类来说,这种同步是自然而然的,但对于AI来说,这却是一个极其复杂的挑战。
传统的AI视频生成系统,即使是像Sora这样的顶级模型,本质上都是在创造"无声电影"。它们能够生成令人惊叹的视频画面,但这些画面是没有声音的。当需要声音时,研究人员通常会使用另一套独立的系统,根据视频内容后期添加音频,这就像先拍完电影再配音一样。这种后期添加的方式虽然能产生听起来合理的声音,但无法做到真正的时间同步。
更具体地说,假设视频中有一个人在第3秒时开始说话,传统的后期音频生成系统可能会在第3.1秒或第2.9秒开始播放声音,这0.1秒的差异人眼就能察觉到。而且,这种方式还有一个根本缺陷:声音无法反过来影响画面。在真实世界中,如果一个人要说一句很长的话,他可能会提前深吸一口气,或者调整嘴部动作,但传统AI系统无法模拟这种双向影响。
研究团队意识到,要真正解决这个问题,就必须让AI同时考虑声音和画面,而不是分别处理它们。这就像教一个人同时用左手画圆、右手画方一样困难,需要大脑的高度协调。UniVerse-1的突破就在于实现了这种"大脑协调",让AI能够同时思考画面和声音应该如何配合。
二、专家缝合术:让两个AI大师携手合作
UniVerse-1最核心的创新是一种被称为"专家缝合"(Stitching of Experts)的技术。要理解这个概念,我们可以把它想象成一场特殊的合作。
假设有两位顶级艺术家:一位是视频制作大师,另一位是音乐创作大师。视频大师擅长创造精美的画面,能够准确描绘人物表情、动作和场景变化;音乐大师则精通声音的艺术,能够创作出动人的旋律和自然的环境音。如果让他们各自独立工作,然后简单地把作品拼接在一起,结果往往是不协调的——画面中的人在第5秒开始跳舞,但音乐可能在第5.2秒才响起相应的节拍。
传统做法就像是让这两位大师在不同的房间里独立工作,然后由第三个人负责把他们的作品组合起来。而UniVerse-1的"专家缝合术"则像是在两个工作室之间开了一扇窗户,让两位大师能够实时沟通和协调。
具体来说,研究团队选择了两个已经非常成熟的AI模型:WAN2.1(一个擅长生成视频的模型)和Ace-step(一个擅长生成音乐的模型)。这两个模型就像是我们故事中的两位大师,各自在自己的领域已经达到了很高的水平。
关键的突破在于如何让这两个原本独立的模型能够相互交流。研究团队在两个模型之间建立了一系列"通信通道",就像在两个工作室之间安装了对讲机。通过这些通道,视频模型可以告诉音频模型:"我现在要画一个人开口说话的画面",音频模型立即响应:"我马上生成相应的语音声音"。同样,音频模型也可以向视频模型传达:"接下来会有一个很响的雷声",视频模型就会相应地准备绘制闪电和乌云。
这种双向交流的机制确保了生成的音视频内容不仅在时间上同步,在语义上也高度一致。如果画面显示的是海浪拍打海岸,那么声音就会是真实的海浪声;如果画面中的人情绪激动,那么声音也会相应地带有情感色彩。
三、在线标注流水线:解决数据不匹配的老大难问题
在AI训练中,有一个经常被忽视但极其重要的问题:数据标注的准确性。这个问题在音视频同步生成中显得尤为突出。
传统的AI训练方式就像这样:研究人员收集了大量视频,然后雇佣工作人员为每个视频写下描述文字,比如"一个男人在海边走路,背景有海浪声"。这些描述文字就像是给AI看的"说明书",告诉它这个视频里到底有什么内容。
但是这种方式存在一个致命缺陷:时间不匹配。假设一个10分钟的视频被标注为"钢琴演奏",但实际上钢琴声音只在第3到第7分钟出现,前面3分钟和后面3分钟可能是演奏者在调试乐器或者观众鼓掌。当AI训练时随机选择这个视频中的5秒片段时,它可能选中了第1分钟的调试阶段,但对应的标注却是"钢琴演奏",这就造成了严重的混乱。
这种不匹配就像是给一个学习做菜的学生一份错误的食谱:食谱上写着"加糖",但实际的烹饪视频中这一步是在"加盐"。学生按照这样的"食谱"学习,自然无法做出正确的菜品。
UniVerse-1的研究团队意识到这个问题的严重性,创新性地开发了一个"在线标注流水线"系统。这个系统就像是一个实时的"视频解说员",能够一边观看视频一边准确描述正在发生的事情。
这个在线系统的工作流程是这样的:当训练需要一个视频片段时,系统不会使用预先准备好的通用标注,而是实时分析这个具体的片段。它会仔细"观察"这5秒钟里到底发生了什么,然后准确描述出来。如果这5秒钟里真的有钢琴声,它就标注为"钢琴演奏";如果这5秒钟里只有观众鼓掌,它就标注为"观众鼓掌";如果既有钢琴声又有人在说话,它就标注为"钢琴演奏伴有人声对话"。
这种精确标注确保了AI学到的每一个样本都是准确的,就像给学生提供了完全正确的食谱一样。通过这种方式训练出来的模型能够更准确地理解音视频之间的对应关系,生成的内容自然也更加协调一致。
四、独立噪声采样:解决隐藏的技术陷阱
在开发UniVerse-1的过程中,研究团队还发现了一个此前被严重忽视的技术问题:噪声相关性问题。这个发现颇具偶然性,但解决它对模型性能的提升却非常显著。
要理解这个问题,我们需要先了解AI生成内容的基本原理。现代AI生成模型的工作方式类似于雕刻:它们从一块"噪声石头"开始,逐步雕刻出最终的内容。这块"噪声石头"就像是雕刻的原材料,通过算法的精心雕琢,最终变成精美的艺术品。
在传统的单一内容生成(比如只生成图片或只生成声音)中,每次都会随机选择一块"噪声石头"作为起点。但在同时生成音频和视频时,系统需要两块"噪声石头":一块用于雕刻视频,另一块用于雕刻音频。
问题出现在这里:大多数AI系统使用的随机数生成器实际上并不是真正的随机,而是"伪随机"的。这就像一台特殊的抽签机,虽然看起来每次抽出的号码都是随机的,但实际上这些号码之间存在隐藏的关联。当系统先为视频抽取一个随机数,再为音频抽取下一个随机数时,这两个数字之间会存在微妙的相关性。
这种相关性在训练过程中会被AI错误地学习为一种"规律"。AI会认为"当视频的起始噪声是某个特定模式时,音频的起始噪声必须是另一个特定模式"。这就像一个学生错误地认为"每当老师穿红衣服时,数学考试就会很难",虽然这两件事本身毫无关系,但学生却建立了错误的联想。
这种错误学习的后果在实际应用中会暴露无遗。当用户调整视频的参数(比如改变视频时长或分辨率)时,系统生成视频噪声的方式会发生变化,这就改变了后续音频噪声的生成模式。由于AI错误地学习了两者之间的虚假关联,音频质量会显著下降,就像学生看到老师今天穿了蓝衣服,就以为数学考试会很简单,结果准备不充分导致考试失利。
UniVerse-1的解决方案简单而有效:为音频和视频分别准备独立的随机数生成器,确保两者之间没有任何虚假的数学关联。这就像给音频和视频各自准备一台独立的抽签机,两台机器完全独立运行,互不干扰。这样,AI就只能学习到真正有意义的音视频关系,而不会被虚假的数学相关性所误导。
这个发现的重要性不仅在于改善了UniVerse-1的性能,更在于为整个AI生成领域提供了重要的技术洞察。许多其他的多模态生成系统可能都存在类似的隐患,而这个发现为后续研究指明了需要注意的方向。
五、数据收集与处理:构建高质量训练素材库
任何AI模型的成功都离不开高质量的训练数据,UniVerse-1在这方面的工作同样值得关注。研究团队并没有简单地从互联网上下载视频,而是建立了一套严格的数据收集和处理体系,最终构建了一个包含7600小时精心筛选内容的训练数据库。
这个数据收集过程就像是为一个超级图书馆采购图书。图书管理员不能随便把任何书籍都放进图书馆,而需要仔细评估每本书的质量、内容和价值。同样,研究团队也制定了多层筛选标准,确保进入训练库的每一个视频片段都符合高质量要求。
数据来源的多样性是这个项目的一大特色。研究团队从YouTube收集了音乐综艺节目、古典音乐表演、烹饪教程、公共演讲、访谈节目、日常视频日志和工具使用演示等丰富内容。此外,他们还纳入了电影片段和来自Pexels的高质量素材库内容,并整合了广泛使用的VGGSound和AudioSet数据集。
筛选过程采用了多重质量控制标准。首先,任何没有音轨的视频都会被立即排除,这确保了所有数据都具备音视频配对的基本条件。接下来是技术质量评估,团队设定了严格的标准:分辨率必须达到1080p以上,码率与分辨率的比例不能低于600,美学质量评分必须超过0.6分。这些技术指标确保了视频的清晰度和观看体验。
时间连贯性也是重要的考量因素。研究团队使用PySceneDetect工具对视频进行场景分割,任何短于5秒的片段都会被删除。这个标准确保了每个训练样本都有足够的时间长度来展示完整的音视频交互关系。
音频活动检测是另一个关键环节。系统会分析每个音轨的音量、能量和零交叉率等指标,识别并移除静音片段。这个步骤确保AI学习的都是有意义的声音内容,而不是无声的空白时段。
对于包含人类语音的内容,处理流程更加精细。系统首先使用Whisper语音识别技术检测语音的存在。如果检测到语音内容,会进行第二步验证:人脸检测。只有同时包含语音和人脸的片段才会被保留,然后使用SyncNet技术验证音频与唇部动作的同步程度。只有SyncNet置信度评分超过2.0的片段才会被标记为包含语音内容并纳入训练集。
经过这一系列严格筛选,最终的数据集包含三个不同类别:1187小时经过验证的以语音为中心的内容,3074小时通用音视频数据,以及3422小时来自VGGSound和AudioSet的专门用于增强音频训练的内容。这种分类确保了模型能够学习到不同类型的音视频关系,从人类对话到自然环境音,从音乐表演到机械声响。
六、模型架构创新:深度融合的双流设计
UniVerse-1的模型架构设计体现了研究团队对音视频同步生成问题的深度思考。整个架构可以比作一座特殊设计的双子塔建筑,两座塔分别处理视频和音频信息,但在每一层都有连接桥梁,确保信息能够自由流通。
视频处理的基础是Wan2.1模型架构,这个模型就像一个专业的视频导演,擅长理解和生成连贯的视觉内容。它包含三个主要组件:3D变分自编码器负责压缩和解压缩视频数据,umT5文本编码器负责理解文本描述,扩散变换器则是核心的生成引擎。视频数据首先被压缩到一个更小的表示空间中,这样可以显著提高处理效率。然后,这些压缩后的数据被分割成小块,就像把一幅大拼图分解成许多小片一样,每一片都包含特定的视觉信息。
音频处理基于Ace-step模型架构,这个模型可以理解为一位专业的音响师,精通各种声音的特征和生成规律。音频数据首先被转换成频谱图,这就像把声音"画"成一幅图像,显示不同频率的声音在不同时间的强度变化。Music-DCAE深度压缩自编码器负责处理这些频谱数据,将其压缩到便于处理的形式。与视频处理类似,音频数据也会被分割成小块进行处理。
真正的创新在于两个处理流之间的深度交互机制。传统的多模态模型通常在最后阶段才让不同模态的信息进行交互,就像两个人各自完成工作后再交换意见。但UniVerse-1在处理的每个层级都建立了交互通道,就像两个人在工作过程中不断沟通协调一样。
具体来说,在每个处理层,视频流处理完自己的信息后,会将结果发送给音频流;同样,音频流也会将自己的处理结果发送给视频流。这种交互是双向的,确保两个模态能够互相影响和调整。为了保证信息传递的质量,系统还加入了特殊的归一化和投影层,就像在两个不同语言的人之间加入了翻译员,确保信息能够被准确理解和使用。
模型还采用了创新的层插值技术来解决架构匹配问题。由于基础的Wan2.1和Ace-step模型具有不同数量的处理层,直接融合会导致结构不匹配。研究团队通过在较浅的模型中策略性地插入新的层来解决这个问题,这些新层的参数通过线性插值现有层的权重来初始化。这个过程就像在两座不同高度的建筑之间建造连接桥梁,需要精确计算每座桥梁的高度和位置。
七、训练策略优化:多重损失函数的协同作用
UniVerse-1的训练过程采用了精心设计的多重损失函数策略,这些不同的损失函数就像一个管弦乐队中的不同乐器,各自发挥作用但又和谐统一,共同指导模型学习正确的音视频生成规律。
主要的训练目标基于流匹配技术,这是一种现代的生成模型训练方法。可以把这个过程想象成教授AI如何从随机噪声逐步"雕刻"出有意义的内容。流匹配定义了从噪声到真实数据的连续变换路径,模型的任务就是学会沿着这条路径精确导航。
对于音频生成,研究团队还引入了语义对齐损失函数,这个额外的指导信号确保生成的音频不仅听起来自然,还要在语义层面与输入描述保持一致。这个损失函数通过比较模型内部表示与两个预训练专家模型的表示来计算:MERT模型提供通用音乐表示,mHuBERT模型提供语音中心表示。这就像给一个学习音乐的学生同时提供两位不同专业背景的老师的指导,确保学生能够掌握更全面的技能。
为了处理训练数据中质量差异的问题,研究团队实施了一种巧妙的低质量数据损失策略。AudioSet和VGGSound数据集虽然提供了丰富的音频多样性,但视觉质量相对较低。直接使用这些数据训练可能会损害视频生成质量。解决方案是在高噪声水平时间步才计算这些数据的视频损失,而在低噪声水平时间步则跳过视频损失计算。这种策略基于这样的观察:在高噪声阶段,模型主要学习粗粒度的结构和运动模式,而在低噪声阶段,模型专注于精细的视觉细节。通过这种选择性训练,模型能够利用低质量数据的音频优势,同时避免其视觉缺陷的负面影响。
训练过程使用AdamW优化器,学习率设置为5e-6,有效批量大小为128。整个训练在7600小时的音视频数据上进行了50000步,使用完全分片数据并行技术在多个节点上分布式执行。梯度累积步数设置为4,这有助于在有限的硬件资源下实现大批量训练的效果。
八、Verse-Bench评估基准:全面检验模型能力
为了系统性地评估UniVerse-1的性能,研究团队开发了一个名为Verse-Bench的综合评估基准。这个基准就像是为音视频生成模型设计的"高考",通过多个维度的测试全面检验模型的各项能力。
Verse-Bench包含600个精心筛选的图像-文本提示对,这些数据来源广泛,包括YouTube视频帧、BiliBili视频、TikTok片段、电影截图、动画画面、AI生成图像以及各种公共网站图像。整个数据集分为三个不同的子集,每个子集都有特定的测试目标。
Set1-I包含205个样本,主要包含各种图像-文本配对,其中包括AI生成图像、网络收集图像和媒体截图。这些样本的视频和音频描述以及语音内容都通过大语言模型生成,并经过人工标注验证。Set2-V包含295个来自YouTube和Bilibili的视频片段样本,使用大语言模型生成描述并通过Whisper进行语音转录,最后经过人工验证确保质量。Set3-Ted是一个特殊的子集,包含100个来自2025年9月TED演讲的样本,使用与Set2相同的处理流程。
评估涵盖了六个不同的生成任务,每个任务都有专门的评价指标。视频生成质量通过三个标准评估:运动评分量化视频中的动态变化,通过RAFT光流模型检测的归一化光流幅度计算;美学评分综合考虑保真度和美学质量,其中保真度通过MANIQA评估模糊和伪影问题,美学质量通过aesthetic-predictor-v2-5和Musiq两个模型评估;身份一致性通过计算参考图像与生成视频每一帧之间的DINOV3特征相似性来衡量。
音频生成质量从三个角度评估:分布相似性通过Fréchet距离和KL散度衡量生成数据与真实数据分布的差异,使用PANNs和PaSST模型提取特征;语义一致性通过LAION-CLAP评分衡量音频与输入文本的对齐程度;质量和多样性通过基于PANNs分类器的Inception评分评估,同时使用AudioBox-Aesthetics评估制作质量、制作复杂性、内容享受度和内容有用性四个维度。
对于文本转语音任务,评估重点是合成准确性,通过词错误率衡量,该指标通过Whisper-large-v3模型转录生成音频后计算得出。音频转视频任务使用与视频生成相同的评价标准,并额外提供SyncNet置信度评分来评估唇同步准确性。视频转音频任务使用音频生成的所有评价指标,同时引入音频-视频对齐指标,通过Synchformer模型量化生成音频与视频流之间的时间同步程度。
九、实验结果分析:突破性能表现与深度洞察
UniVerse-1在Verse-Bench基准上的表现展现了其作为首个开源音视频同步生成模型的突破性意义。虽然作为一个统一的生成模型,在与专门化的单模态专家模型直接比较时面临一定挑战,但其在多个关键指标上都展现了令人印象深刻的性能。
在视频生成质量方面,UniVerse-1在身份保持能力上表现出色,ID一致性得分达到0.89,这意味着生成的视频能够很好地保持参考图像中人物或对象的特征一致性。这个结果甚至超过了一些专门的视频生成模型,展现了模型在理解和保持视觉特征方面的强大能力。美学评分0.47虽然不是最高,但考虑到这是一个同时生成音频和视频的统一模型,这个结果相当可观。运动评分0.20表明模型生成的视频具有自然的动态特性,避免了静态或僵硬的效果。
音频生成方面的表现同样值得关注。虽然与专业音频生成模型相比存在一定差距,但UniVerse-1在多个指标上都达到了实用水平。Fréchet距离1.25和KL散度2.70显示生成的音频分布与真实数据相当接近,这表明模型学到了真实音频的统计特性。CLAP评分0.16虽然不如专业模型的0.40,但考虑到音频需要与视频保持同步,这个结果是可以接受的。特别值得注意的是,在音调相关性方面,模型获得了2.49的高分,显示其在音乐内容生成方面具有良好的表现。
最重要的是模型在同步生成方面的表现。音频-视频对齐指标0.23相对于SVG模型的0.09有显著提升,同时CLAP评分0.16也优于SVG的0.08。这种综合表现表明UniVerse-1在保持音视频同步的同时,还能确保内容的语义一致性。这是一个重要的平衡,因为简单的时间同步并不足够,音频和视频的内容也必须在语义层面保持协调。
在语音生成任务中,模型的词错误率为0.18,这个结果虽然不如专业TTS模型的0.15-0.17,但考虑到音频是与视频同步生成的,这个精度已经相当不错。更重要的是,在音频转视频的唇同步评估中,模型获得了1.34的LSE-C评分。虽然这个分数低于使用真实音频的专门方法(如Wan-S2V的6.49),但需要注意的是,UniVerse-1是在完全生成的音频和视频上评估的,而对比方法使用的是真实音频,这使得比较并不完全公平。
消融研究进一步验证了关键技术组件的有效性。移除低质量数据损失策略后,视频质量指标出现明显下降,ID一致性从0.89降至0.78,美学评分从0.47降至0.44,这证实了该策略在处理混合质量数据时的重要性。更令人印象深刻的是独立噪声采样策略的影响:移除该策略后,多个音频质量指标显著恶化,Fréchet距离从1.25恶化至1.43,KL散度从2.70增加到3.51,词错误率从0.18大幅增加到0.38。这些结果强调了看似微小的技术细节对最终性能的重大影响。
十、技术影响与未来展望
UniVerse-1的发布对AI生成领域具有深远的影响意义。作为首个开源的音视频同步生成模型,它不仅填补了学术研究与工业应用之间的空白,更为整个社区提供了宝贵的技术参考和实践经验。
从技术角度来看,UniVerse-1证明了专家模型融合的可行性和有效性。这种"站在巨人肩膀上"的方法避免了从头训练大型模型的巨大资源需求,为资源有限的研究团队和开发者提供了新的可能性。专家缝合技术的成功应用表明,未来可能会有更多类似的模型融合尝试,不仅限于音视频领域,还可能扩展到其他多模态任务中。
在线标注技术的创新解决了多模态训练中长期存在的数据对齐问题。这种动态标注的思路为处理大规模、多样化数据集提供了新的解决方案,特别是在需要精确时间对齐的任务中具有重要价值。这种技术可能会被其他需要处理时序数据的应用所采用。
独立噪声采样策略的发现具有重要的理论价值,它揭示了多模态生成中一个容易被忽视但影响重大的技术陷阱。这一发现提醒研究社区在设计多模态系统时需要更加仔细地考虑各个组件之间的潜在相互影响,即使这些影响在表面上看起来并不明显。
从应用角度来看,UniVerse-1为创意产业开辟了新的可能性。视频制作人员可以更加高效地创建包含同步音效的内容,教育工作者可以生成更加生动的教学材料,内容创作者可以探索全新的创意表达形式。特别是在需要快速原型制作或概念验证的场景中,这种技术可以显著降低制作门槛和成本。
当然,研究团队也坦诚地指出了当前版本的局限性。由于计算资源的限制,模型是基于相对较小的Wan2.1-1.3B构建的,这在一定程度上限制了其性能上限。与Google的Veo3等大规模商业模型相比,在绝对性能上仍有差距。此外,训练数据的规模虽然达到了7600小时,但相对于一些大型商业模型使用的数据量仍有不足。
未来的改进方向包括扩展到更大规模的基础模型,增加训练数据的规模和多样性,以及进一步优化模型架构。研究团队表示,他们的长期目标是显著提升开源音视频合成模型的能力,缩小与最先进商业模型的性能差距。
除了性能提升之外,模型的可控性和可解释性也是未来研究的重要方向。用户可能希望对生成的音视频内容进行更精细的控制,比如调整音频的情感色彩、修改视频中特定对象的属性等。这些需求将推动更加灵活和用户友好的生成技术的发展。
说到底,UniVerse-1的意义不仅在于其技术创新,更在于它为整个AI生成社区树立了开放协作的典范。通过开源代码和模型,研究团队不仅推动了技术进步,也促进了知识共享和协作创新。这种开放的研究态度对于AI技术的健康发展具有重要意义,它确保了更多研究者和开发者能够参与到前沿技术的探索中,共同推动整个领域的进步。
随着技术的不断完善和应用场景的扩展,我们有理由相信,音视频同步生成技术将在不久的将来成为数字内容创作的重要工具,为人类的创意表达提供更加强大和便捷的技术支持。
Q&A
Q1:UniVerse-1和其他AI视频生成工具有什么不同?
A:UniVerse-1最大的不同是能够同时生成视频和音频,而且两者完全同步。传统AI视频工具(如Sora)只能生成无声视频,需要后期添加音效,而UniVerse-1生成的音视频天然匹配,就像真实世界发生的事件一样。
Q2:普通用户现在可以使用UniVerse-1吗?
A:目前UniVerse-1主要面向研究人员和开发者开放,代码和模型已在GitHub发布。普通用户暂时还无法直接使用,但研究团队表示未来会考虑开发更易用的版本。感兴趣的技术人员可以通过项目主页https://dorniwang.github.io/UniVerse-1/获取详细信息。
Q3:UniVerse-1生成的视频质量如何?能达到商业使用标准吗?
A:UniVerse-1作为首个开源音视频同步生成模型,在视频质量和音频质量方面都达到了相当不错的水平,特别是在身份保持和时间同步方面表现出色。不过由于计算资源限制,与Google Veo3等大型商业模型相比还有差距,更适合研究、原型制作和概念验证使用。
相关文章
来源:市场资讯(来源:中关村智慧城市信息化产业联盟)近期,全国各地多个智慧城市类的项目信息公示,此次再汇总补充一下各省份的智慧城市类项目,新增16各项...
2025-09-23 0
如果告诉你,现在的AI不仅能生成精美的视频,还能同时生成与画面完美同步的声音,你会不会觉得这听起来像科幻电影?然而,这已经成为现实。由StepFun公...
2025-09-23 0
苹果公司最新发布的iPhone 17 Pro Max采用了USB-C接口,近日知名评测网站ChargerLAB使用多种苹果官方充电器对其充电速度进行了...
2025-09-23 0
预制菜:餐饮行业背后的 “隐形力量”在当下快节奏的生活模式中,预制菜已悄然融入日常饮食体系。于忙碌的工作日,一份迅速送达的外卖,其中鲜香的鱼香肉丝、滑...
2025-09-23 0
24小时,够不够一个财富自由的人重新站上战场?百度创始团队成员王湛给出了答案。2025年4月的一个饭局后,这位离开互联网一线近十年的“老兵”,只用一天...
2025-09-23 0
温馨提示:一颗种子能否顺利生根发芽、长大成为一棵大树,不光取决于种子本身。另外还需要看种子生长的土壤、光照、水源、动物等客观环境。而资讯犹如种子,能否...
2025-09-23 0
小米在8月份推出了小米澎湃OS 3系统,已有不少存量机支持更新(Beta版),但正式版暂时未推送,预计是新一代旗舰机首发搭载,与往年同样的操作方案。不...
2025-09-23 0
昨天,“伊斯坦布尔桥”轮在宁波舟山港完成集装箱装载作业,将启程经北极航道驶往英国弗利克斯托港。这标志着全球首条中欧北极集装箱快航航线(简称“中欧北极快...
2025-09-23 0
发表评论