6.1B打平40B！蚂蚁百灵开源新模型，长文本推理成本砍至1/10

抖音热门 2025年09月30日 00:11 0 aa

前言

大模型从实验室迈向产业应用时，“推理成本”成了企业的拦路虎。

用户期待更久的多轮交互、更流畅的长文本处理。

可动辄数十亿参数的大模型，部署起来又贵又慢，不少中小企业直呼“用不起”。

如今蚂蚁百灵团队开源两款混合线性推理模型，为行业降本提效提供新路径。

从去年起，大模型行业就从“比参数规模”转向“比落地效率”。毕竟再强的模型，不能低成本落地就是“空中楼阁”。

电商客服处理数万字聊天记录、法律行业分析百页合同、科研人员梳理海量文献，这些场景都需长文本推理能力，但过去主流模型要么上下文长度不足。要么推理成本高到让小公司难以承受，蚂蚁百灵的突破恰好击中行业痛点。

新模型能大幅降本，核心是“混合线性注意力+高稀疏MoE”的组合策略。传统模型的标准Attention机制，计算量随文本长度呈平方级增长，文本越长越卡顿。

而新模型把87.5%的Attention层换成自研线性Attention，计算复杂度变为线性增长，长文本处理速度显著提升。

以Ring-flash-linear-2.0为例，28层用线性Attention，仅留4层标准Attention保精度，再搭配旋转位置编码、分组RMSNorm等优化，既没丢效果，又省了大量计算资源。

同时，模型保留1/32专家激活率的超稀疏MoE结构，简单说模型中的“专家模块”仅在处理任务时激活一小部分，类似公司遇问题只找对应部门专家，无需全员参与。

再结合MTP多token预测和全局负载均衡设计，最终实现“6.1B参数模拟40B dense模型”，好比用经济型轿车油耗跑出豪华跑车动力，企业硬件投入和运营成本都能大幅缩减。

架构创新之外，推理吞吐能力是用户体验的“最后一公里”。蚂蚁团队实测数据显示，Ring-mini-linear-2.0在256k以上上下文的Prefill阶段，吞吐量是Qwen3-8B的12倍，生成长度32k+的Decode阶段亦是如此。

Ring-flash-linear-2.0面对Qwen3-32B，32k以上上下文的Prefill阶段吞吐量近5倍，生成长度64k时Decode阶段吞吐量接近10倍。这样的吞吐表现，源于对推理框架的深度优化。

团队适配SGLang和vLLM v1框架，定制线性算子加速，优化后的triton kernel在prefill单样本任务加速比达2.73倍，典型decode场景也有2.57倍。

实际应用中，比如电商大促客服机器人应对上万用户咨询、企业批量处理合同，高吞吐量能避免“用户等半天、系统还在转”，对大模型落地至关重要。

大模型落地还有个“隐形坑”——训推一致性，模型训练时表现出色，推理时却“掉链子”。

根源是训练与推理的算子实现、精度标准、模块顺序不同，在MoE模型中，这种差异会严重影响强化学习（RL）训练，导致模型“学不会决策”。

蚂蚁团队从底层优化，让训练和推理用相同算子模块，将KVCache、lm_head等关键模块精度统一为fp32，还固定MOE专家选择和token加和顺序，成功解决这一问题。

实测表明，修复训推一致性后，RL训练的reward明显提升，还首次实现用rollout probs代替training probs做PPO clip训练，既节省重前向计算时间，又提高训练效率。

这意味着模型训练时学会的“技能”，推理时能完整发挥，比如训练时掌握写合规合同，推理时就能稳定生成无漏洞文本。

模型的实际表现更具说服力，蚂蚁团队的结构化代码生成测试中，让模型写数独游戏web应用。

能生成无bug代码，包含难度选择、填数提示等功能；生成坦克大战代码时，坦克初始化、方向控制、积分更新等模块齐全。

即便是模拟股票交易软件页面，也能覆盖秒级数据更新、日k线蜡烛图等5项要求，还用canvas实现高清绘制，适配不同窗口大小，完全符合原生js和html5规范。

从行业视角看，蚂蚁百灵这两款模型的开源，或推动混合线性架构成为大模型落地主流方向。

如今AI客服、智能文档分析、代码助手等场景，对高并发生成和超长上下文需求渐增，混合线性架构既能满足需求又能降成本，契合企业实际需求。

此前不少中小企业因成本对大模型望而却步，如今有了低成本方案，或加速大模型在各行业的渗透。

蚂蚁百灵团队的探索，给行业提供了“用巧劲降成本”的思路——并非堆参数才能有好效果，通过架构创新和系统级优化，同样能让大模型“又好用又便宜”，而这正是大模型真正走进产业、服务大众的关键。

发表评论