首页 今日新闻文章正文

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

今日新闻 2025年10月16日 18:35 0 aa
刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

该说不说,都 2025 年了,我问 AI 一个问题,体验却常常两极分化。

简单的事,它秒回,但答得跟没答一样。

复杂的事,让它深度思考,它又要琢磨 30 秒以上。

而每一次回答,AI 都在不断「燃烧」token。

对企业来说,token 消耗量直接等于成本。当模型开启深度思考时,效果确实能提升一大截,可延迟高了,token 烧得更猛了,成本也就跟着水涨船高。

这是整个行业的痛点。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

尤其是 AI 应用越来越多,token 消耗也在暴涨。以豆包大模型为例,到 9 月底的日均 token 调用量已经突破 30 万亿+,比 5 月底暴涨超 80%。而这,还只是市场的一部分。

当 AI 需求以这样的速度增长时,要么忍着用效果差的轻量模型省钱,要么咬牙烧钱用顶级模型保效果。问题也就在摆在眼前——要效果,还是要成本?

10 月 16 日,火山引擎在武汉的 FORCE LINK AI 创新巡展上,用四款新品告诉你:小孩子才做选择。

豆包大模型 1.6 原生支持 4 档思考长度调节,豆包 1.6 lite 腰斩成本还能提升效果,还有豆包语音合成模型 2.0 和声音复刻模型 2.0。

根据 IDC 报告,2025 年上半年中国公有云大模型服务市场里,火山引擎拿下 49.2% 的份额,稳坐第一。

什么概念?

每两个用云端大模型的企业,就有一个在用火山引擎。

今天发布会上提到,深度思考模式虽然能让效果提升 31%,但因为延迟、成本和 token 消耗的暴涨,实际使用占比只有 18%。说白了,企业想用,但真烧不起。

针对这个痛点,今天全新升级的豆包大模型 1.6 提供了 Minimal、Low、Medium、High 四档思考长度。

这是国内首个原生支持「分档调节思考长度」的模型。

怎么理解?

就是给 AI 装了个「变速器」:简单查询用 Minimal 档省 token,复杂推理切 High 档保效果。

企业可以根据场景灵活平衡效果、时延和成本,思考效率还进一步提升了。

拿低思考档举例。

相比升级前的单一思考模式,总输出 tokens 直接砍掉 77.5%、思考时间暴降 84.6%。

效果呢?保持不变。

当每个 token 的成本可以被精确控制时,买得越多,省得越多;优化得越细,赚得越多。

火山引擎还推出了豆包大模型 1.6 lite,相比旗舰款更轻量、推理速度更快。

效果层面,这个模型超越豆包 1.5 pro,在企业级场景测评中提升 14%。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

成本层面,在 0-32k 输入区间里,综合使用成本较豆包 1.5 pro 狂降 53.3%。

效果更好,成本腰斩。

这种「单位 token 价值密度」的提升,本质上就是让每一分钱都花在刀刃上。

大会上,火山引擎还发布了豆包语音合成模型 2.0 和声音复刻模型 2.0。

语音正在成为 AI 应用的核心交互方式。

但比起什么情感表现力更强、指令遵循更精准,更值得关注的是——它们终于能准确朗读复杂公式了。

这事听着不起眼,但在教育场景里,复杂公式和符号的朗读一直是业界老大难。

目前市面上同类模型朗读准确率普遍低于 50%。

新发布的两大语音模型针对性优化后,在小学到高中全学科的复杂公式朗读中,准确率直接飙到 90%。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

这背后是基于豆包大语言模型研发的全新语音合成架构,让合成和复刻的声音都具备深度语义理解能力,还拓展出上下文推理功能。

AI 不再无脑把文字转成声音,而是先「理解」内容,再进行「精准情感表达」。

用户可以通过自然语言精准调整语速、情绪、声线、音调、风格变化,语音可控性直接拉满。

想要温柔一点?「来点温柔的感觉」。

想要激昂一些?「读得激动点」。

在发布会现场,火山引擎展示了一个挺有意思的 demo:

以武汉保护青头潜鸭为主题创作儿童绘本,豆包图像创作模型 Seedream4.0 生成插图,豆包语音合成模型 2.0 进行情感演绎。

过程中还能通过指令实时控制朗读效果。

自去年 5 月首发以来,豆包语音模型家族已覆盖语音合成、语音识别、声音复刻、实时语音、同声传译、音乐创作、播客创作等 7 大领域,接入超过 4.6 亿台智能终端。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

在今天的发布会现场,谭待指出了全球 AI 大模型的三大发展趋势:

深度思考模型正与多模态理解能力深度融合,视频、图像、语音模型逐步达到生产级应用水平,企业级复杂 Agent 正在走向成熟。

等等,我们停一下。

当模型越来越多,面对具体需求时如何选择最有性价比的模型?

这可能是很多企业的灵魂拷问。

火山引擎发布了智能模型路由(Smart Model Router),这是国内首个针对模型智能选择的解决方案。

即日起,用户可以在火山方舟上选择「智能模型路由」功能。

该功能支持「平衡模式」、「效果优先模式」和「成本优先模式」三种方案,能针对任务请求自动选择最合适的模型。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

为什么需要这个?

因为不同任务对 token 的「价值密度」需求完全不同。

客服系统回答「怎么退货」,用轻量级模型就够了。

但医疗诊断分析病例,必须调用最强模型。

虽然 token 消耗相同,但价值密度天差地别。

智能模型路由的本质,就是让 AI 自己判断「这个任务值得烧多少 token」。

目前,火山引擎智能模型路由已支持豆包大模型、DeepSeek、Qwen、Kimi 等多种主流模型。

拿 DeepSeek 举例,实测数据:

在效果优先模式下,智能路由后模型效果相比直接用 DeepSeek-V3.1 提升 14%。

在成本优先模式下,在实现 DeepSeek-V3.1 相似效果的条件下,模型综合成本最高下降超 70%。

当模型选择本身也被 AI 接管时,整个行业就形成了一个正反馈循环:

更强的模型能力解锁新的应用场景 → 新应用的爆发推高 token 消耗量 → 消耗量的增长倒逼智能路由不断优化 → 路由优化进一步降低单位成本 → 成本下降释放更多需求弹性 → 需求的释放又推高整体消耗。

这让人想起 1882 年,当爱迪生建成世界第一座商用发电厂时,没人能预见「千瓦时」这个单位会催生整个现代工业体系。

现如今,token 正在成为 AI 时代的「千瓦时」。

前不久 OpenAI 公布的「万亿 token 俱乐部」名单、Google 每月燃烧的 130 万亿 token,都印证着这股生产力的蓬勃涌动。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

当然,好模型只是起点,好体验才是最终目标。

当你问 AI 一个问题时,不应该再纠结是要快还是要好。分档思考让简单问题秒回且准确,复杂问题深度推理且高效。

智能路由让你不用操心该选哪个模型,AI 会自己找最合适的。

用自然语言就能精准控制语音模型,而不是被一堆参数搞晕。这些技术的每一次迭代,最终目的只有一个:让用户用得起、更要用得好。

或许这才是 AI 该有的样子。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿|原文链接· ·新浪微博

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap