首页 景点排名文章正文

音频的「文生图」来了?讯飞 AudioFly 在线体验就在模力方舟

景点排名 2025年10月23日 13:30 0 aa

当你用一句话描述「一辆汽车急刹车溅起雨水」的场景,AI 不再只是理解文字,还能为你合成一段真实感十足的音效。

现在,这样的能力你已经可以直接在模力方舟上尝试了!借助本土算力厂商天数智芯的强大算力,科大讯飞最新开源的音频生成模型AudioFly现已上线在线体验:https://ai.gitee.com/serverless-api?model=AudioFly

音频的「文生图」来了?讯飞 AudioFly 在线体验就在模力方舟

介绍介绍 AudioFly

AudioFly是一个基于文本生成音效的模型,能够根据一句自然语言描述,合成高质量音频,生成结果与文本内容高度契合。

模型采用潜在扩散架构(LDM),参数规模达 10 亿,训练数据涵盖 AudioSet、AudioCaps、TUT 等开放数据集以及内部私有数据,具备强大的泛化能力与声音理解能力,支持单事件和多事件复杂场景。

在学术音频生成基准数据集 AudioCaps 上,AudioFly 取得了多个关键指标的领先成绩:

音频的「文生图」来了?讯飞 AudioFly 在线体验就在模力方舟

  • FD:衡量生成音频与真实音频特征的距离(越低越好)
  • KL:衡量生成数据与真实数据的概率分布差异(越低越好)
  • CLAP:衡量音频与文本的匹配度(越高越好)

上述结果复用了Stable Audio Open的开源评测方法,确保客观可比AudioFly在 FD 和 KL 指标上遥遥领先,CLAP 与 SOTA 水平持平。

从「文生图」到「文生音」,生成式 AI 的边界正在被不断拓宽。现在就来模力方舟试用 AudioFly,把声音变成你的内容创作新工具:https://ai.gitee.com/serverless-api?model=AudioFly

音频的「文生图」来了?讯飞 AudioFly 在线体验就在模力方舟

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap