深圳平湖实验室是罗山科技园的重要组成部分。 受访者供图罗山科技园沙盘,园区总占地138公顷。 颜鹏 摄平湖实验室已布局第四代半导体。 受访者供图10月...
2025-10-15 0
苹果发布新型流匹配模型实现文本快速生成
要理解这项研究,首先需要了解几种不同的模型类型。ChatGPT等大语言模型属于自回归模型,它们按顺序生成文本,一次生成一个Token,同时考虑用户提示和之前生成的所有Token。
与自回归模型不同,扩散模型可以并行生成多个Token,并通过多次迭代步骤进行优化,直到形成完整的响应。
流匹配模型是扩散模型的一种变体,它基本上跳过了扩散模型的迭代过程,学会一次性生成最终结果。
苹果和俄亥俄州立大学的研究人员在今天发表的一项研究中,提出了一种名为"少步离散流匹配"(Few-Step Discrete Flow-Matching,简称FS-DFM)的新模型。
研究显示,FS-DFM能够仅通过8轮快速优化就写出完整的文章段落,达到了需要超过一千步才能实现类似效果的扩散模型的质量水平。
为了实现这一目标,研究人员采用了一种有趣的三步方法:首先,训练模型处理不同的优化迭代预算;然后,使用指导"教师"模型帮助它在每次迭代中进行更大、更准确的更新,而不会"过度修正"预期文本;最后,调整每次迭代的工作方式,使模型能够以更少、更稳定的步骤达到最终结果。
与更大的扩散模型相比,FS-DFM在两个重要指标上表现出色:困惑度和熵值。
困惑度分数是语言模型文本质量的标准指标。困惑度越低,文本听起来越准确和自然。
至于熵值,它本质上衡量模型选择每个词的置信度。在实践中,如果熵值太低,文本可能变得重复或可预测;但如果太高,文本可能开始听起来随机或不连贯。
与拥有70亿参数的Dream扩散模型和拥有80亿参数的LLaDA扩散模型相比,参数分别为17亿、13亿和1.7亿的FS-DFM变体在所有迭代次数下都持续实现了更低的困惑度并保持了更稳定的熵值。
鉴于这些结果和该方法显示的前景,以及缺乏类似的模型和研究,研究人员还表示他们"计划发布代码和模型检查点,以促进可重现性和进一步研究"。
如果您想深入了解苹果的方法和模型的更多具体实现细节,请务必查看arXiv上的完整论文。该论文包含多个性能示例,例如用颜色编码显示每个词最后更改的迭代轮次。
论文显示,许多Token被标记为黄色,表明它们在过程早期就被预测出来。这是由于累积标量的作用。
Q&A
Q1:FS-DFM模型与传统大语言模型有什么区别?
A:FS-DFM是一种流匹配模型,与ChatGPT等自回归模型不同。自回归模型按顺序生成文本,一次生成一个Token,而FS-DFM可以并行生成多个Token,并通过少量迭代步骤进行优化,仅需8轮快速优化就能写出完整文章。
Q2:FS-DFM在性能上有什么优势?
A:与拥有70亿和80亿参数的大型扩散模型相比,参数更少的FS-DFM变体(17亿、13亿和1.7亿参数)在困惑度和熵值两个重要指标上都表现更好,实现了更低的困惑度和更稳定的熵值,生成的文本更准确自然。
Q3:困惑度和熵值在语言模型中代表什么意思?
A:困惑度是衡量语言模型文本质量的标准指标,困惑度越低,文本越准确自然。熵值衡量模型选择每个词的置信度,熵值太低文本会重复可预测,太高则会显得随机不连贯,需要保持适当平衡。
相关文章
深圳平湖实验室是罗山科技园的重要组成部分。 受访者供图罗山科技园沙盘,园区总占地138公顷。 颜鹏 摄平湖实验室已布局第四代半导体。 受访者供图10月...
2025-10-15 0
IT之家 10 月 15 日消息,科技媒体 BW Businessworld 昨日(10 月 14 日)发布博文,报道称苹果公司高管近日详细解读了 i...
2025-10-15 0
苹果发布新型流匹配模型实现文本快速生成要理解这项研究,首先需要了解几种不同的模型类型。ChatGPT等大语言模型属于自回归模型,它们按顺序生成文本,一...
2025-10-15 0
这两天,国内运营商们都陆续开启了eSIM手机业务的预约,而今天,江苏电信也开启了电信eSIM卡的预约预热,其中提到中国电信已获得工信部eSIM手机商用...
2025-10-15 0
本篇文章给大家谈谈浙江十三水有挂吗,以及浙北十三水官网对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 钱塘十三水有挂吗 钱塘十三水没有挂。钱塘...
2025-10-15 33
近日,荣耀手机官方宣布旗下荣耀 X70 定档 7 月 15 日发布,延续了经典星环镜组造型,主打商务风格,根据官方宣传来看将会提供朱砂红、竹韵青、月影...
2025-10-15 16
在当下琳琅满目的手机市场中,荣耀凭借不断的技术革新和精准的市场定位,持续推出一系列性能卓越且性价比超高的机型。不过,面对众多型号,如何挑选却成了难题。...
2025-10-15 39
01机器人时代爆发前夜,黄埔放了一个大招?2025年,全球科技圈在开年就被一股“神秘东方力量”点燃。广州开发区、黄埔区高质量发展大会上,一个“走路”步...
2025-10-15 15
发表评论