首页 抖音热门文章正文

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

抖音热门 2025年09月30日 00:11 0 aa

前言

大模型从实验室迈向产业应用时,“推理成本”成了企业的拦路虎。

用户期待更久的多轮交互、更流畅的长文本处理。

可动辄数十亿参数的大模型,部署起来又贵又慢,不少中小企业直呼“用不起”。

如今蚂蚁百灵团队开源两款混合线性推理模型,为行业降本提效提供新路径。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

蚂蚁百灵新模型的核心优势

从去年起,大模型行业就从“比参数规模”转向“比落地效率”。毕竟再强的模型,不能低成本落地就是“空中楼阁”。

电商客服处理数万字聊天记录、法律行业分析百页合同、科研人员梳理海量文献,这些场景都需长文本推理能力,但过去主流模型要么上下文长度不足。要么推理成本高到让小公司难以承受,蚂蚁百灵的突破恰好击中行业痛点。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

新模型能大幅降本,核心是“混合线性注意力+高稀疏MoE”的组合策略。传统模型的标准Attention机制,计算量随文本长度呈平方级增长,文本越长越卡顿。

而新模型把87.5%的Attention层换成自研线性Attention,计算复杂度变为线性增长,长文本处理速度显著提升。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

以Ring-flash-linear-2.0为例,28层用线性Attention,仅留4层标准Attention保精度,再搭配旋转位置编码、分组RMSNorm等优化,既没丢效果,又省了大量计算资源。

同时,模型保留1/32专家激活率的超稀疏MoE结构,简单说模型中的“专家模块”仅在处理任务时激活一小部分,类似公司遇问题只找对应部门专家,无需全员参与。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

再结合MTP多token预测和全局负载均衡设计,最终实现“6.1B参数模拟40B dense模型”,好比用经济型轿车油耗跑出豪华跑车动力,企业硬件投入和运营成本都能大幅缩减。

架构创新之外,推理吞吐能力是用户体验的“最后一公里”。蚂蚁团队实测数据显示,Ring-mini-linear-2.0在256k以上上下文的Prefill阶段,吞吐量是Qwen3-8B的12倍,生成长度32k+的Decode阶段亦是如此。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

Ring-flash-linear-2.0面对Qwen3-32B,32k以上上下文的Prefill阶段吞吐量近5倍,生成长度64k时Decode阶段吞吐量接近10倍。 这样的吞吐表现,源于对推理框架的深度优化。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

蚂蚁百灵新模型的行业价值

团队适配SGLang和vLLM v1框架,定制线性算子加速,优化后的triton kernel在prefill单样本任务加速比达2.73倍,典型decode场景也有2.57倍。

实际应用中,比如电商大促客服机器人应对上万用户咨询、企业批量处理合同,高吞吐量能避免“用户等半天、系统还在转”,对大模型落地至关重要。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

大模型落地还有个“隐形坑”——训推一致性,模型训练时表现出色,推理时却“掉链子”。

根源是训练与推理的算子实现、精度标准、模块顺序不同,在MoE模型中,这种差异会严重影响强化学习(RL)训练,导致模型“学不会决策”。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

蚂蚁团队从底层优化,让训练和推理用相同算子模块,将KVCache、lm_head等关键模块精度统一为fp32,还固定MOE专家选择和token加和顺序,成功解决这一问题。

实测表明,修复训推一致性后,RL训练的reward明显提升,还首次实现用rollout probs代替training probs做PPO clip训练,既节省重前向计算时间,又提高训练效率。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

这意味着模型训练时学会的“技能”,推理时能完整发挥,比如训练时掌握写合规合同,推理时就能稳定生成无漏洞文本。

模型的实际表现更具说服力,蚂蚁团队的结构化代码生成测试中,让模型写数独游戏web应用。

能生成无bug代码,包含难度选择、填数提示等功能;生成坦克大战代码时,坦克初始化、方向控制、积分更新等模块齐全。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

即便是模拟股票交易软件页面,也能覆盖秒级数据更新、日k线蜡烛图等5项要求,还用canvas实现高清绘制,适配不同窗口大小,完全符合原生js和html5规范。

从行业视角看,蚂蚁百灵这两款模型的开源,或推动混合线性架构成为大模型落地主流方向。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

如今AI客服、智能文档分析、代码助手等场景,对高并发生成和超长上下文需求渐增,混合线性架构既能满足需求又能降成本,契合企业实际需求。

此前不少中小企业因成本对大模型望而却步,如今有了低成本方案,或加速大模型在各行业的渗透。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

蚂蚁百灵团队的探索,给行业提供了“用巧劲降成本”的思路——并非堆参数才能有好效果,通过架构创新和系统级优化,同样能让大模型“又好用又便宜”,而这正是大模型真正走进产业、服务大众的关键。

6.1B打平40B!蚂蚁百灵开源新模型,长文本推理成本砍至1/10

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap