实测蚂蚁万亿新思考模型Ring-1T，跟DeepSeek V3.2拼一把

排行榜 2025年10月15日 17:02 1 aa

两周前还在围观 Ring-1T-preview 的数学题解法，昨夜蚂蚁突然甩出全球首个开源万亿思考模型 Ring-1T，这个让 GPT-5 都捏了把汗的选手，不仅在 IMO 奥数题里解出银牌水平，连画骑自行车的鹈鹕都能精准甩出竞品三条街（DeepSeek 的鹈鹕至今坚持脚身分离）。当 Icepop 算法冻住万亿参数的训练崩裂，当 ASystem 让模型在沙箱里每秒练上万次，那个能种树的蚂蚁，这次真的在 AI 开源赛道上，把 "思考" 卷出了新高度。

蚂蚁最近好卷啊，两周内先后开源了Ring-1T-preview、Ling-1T和Ring-1T，Ring-1T同时是全球首个开源的万亿思考模型，这名头够响亮，也够让我半夜开机来个全面测试。

在正式开测前，我觉得需要理一下蚂蚁这一系列新模型，蚂蚁，就是我们手机里那个能种树、能付钱的支付宝蚂蚁，

他们发布的大模型中文名叫百灵，有三个系列，Ling代表语言模型，Ring代表思考模型，Ming则代表多模态模型。

跟preview版不同，正式版Ring-1T完成了完整的训练流程，包括继续通过大规模可验证奖励强化学习训练提升了推理能力，通过RLHF训练提升了模型通用能力。

来看看纸面实力吧，Ring-1T在数学竞赛（AIME 25、HMMT 25），代码生成（LiveCodeBench、CodeForce-Elo）,逻辑推理（ARC-AGI-v1）上达到了开源SOTA水平。

光速开测，用的是我的大模型噩梦级测试案例1.1版，跟DeepSeek V3.2（开深度思考）来个PK。公开所有提示语，每个提示语跑三次，取效果最好的一次作为最终结果。包括SVG、物理模拟、前端设计、可交互3D四大类

先来个SVG热热身，绘制一个骑自行车的鹈鹕的 SVG 图像

Ring-1T（左侧）差个脚踏，轮子、车架、鸟本体都有了，而 DeepSeek V3.2 画出来的鹈鹕还是如此稳定实现了脚身分离，方向也反了，车把也没了。

为了让大家清晰看出差别，我又又又又把另外16个模型的跑出来的鹈鹕拿出来了，什么看到能忍不住不笑啊

再来看看常见的物理模拟，用 HTML、CSS 和 JavaScript 实现这样一个效果：一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用，并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。

Ring-1T和DeepSeek V3.2都提供了多项参数选择，包含但不限于小球重置，增减六边形旋转速度，还可以取消动力，Ring-1T在这个基础上还增加了反弹和墙面摩擦力。

接着测测UI组件，复刻我天天见的界面，帮我做一个 Microsoft Word 的克隆版本，但只需要前端部分。

上次测试了Excel，这次测测看word文档的复刻效果怎么样，除了加粗、斜体、下划线，Ring-1T还可以实现字体大小调整，左中右对齐。界面本体和功能切换上真能唬住我，这种case测起来就有种惊喜感，明明没有期待它能完成除了前端外的别的功能，但是抽盲盒能抽出来。

Create animated cards in HTML, JS, and CSS with hover effects, transitions, and responsive design. Include 3-5 cards with different content.

这个属于是天气组件的变体，不做任何限制，就让模型出卡，它们都选择了带放大特效和按钮变色。我发现DeepSeek V3.2特别喜欢用暖色，Ring-1T反而喜欢用冷色调，有点想测测它们的16人格了。

UI测完了，来个可交互的3D界面，

好久没做贪吃蛇了，来看看现在能做到什么程度了

Build a complex Snake game in JavaScript with power-ups, multiple levels, and score tracking UI.

现在已经可以给贪吃蛇加上速度、磁力、双倍积分和护盾了，DeepSeek V3.2把色块做出来了，但是没有起到作用。

回到模型本身，Ring-1T在Ling-1T-base基础上通过LongCoT-SFT + RLVR + RLHF多阶段训练出来的，Ling-1T用的是MoE结构，前4层是dense结构，后面76层才是MoE，一共256个专家，每次激活参数约51B，预训练数据20T Tokens，全程采用FP8精度训练

除了直接对话，Ring-1T也已经上线到蚂蚁的多Agent平台百宝箱里了，百宝箱我之前也做过测评，几步就可以拉起一个自己的Agent团队，还可以在支付宝上kuku收钱。

终于有个简单的多Agent入门教程了，蚂蚁这次上大分

在训练过程中，蚂蚁还有两大神器。

一个叫Icepop，中文叫棒冰的算法，它的作用就是当一根棒冰（字面意义上），给模型的强化学习训练过程降温，通过修正了训练和推理阶段的精度差异，避免了长周期训练中GRPO算法可能出现的崩溃问题。

在技术报告里面放出了两张图，

图左：GRPO训推差异随着训练成指数上升，Icepop较为平稳；

图右：训推差异最大值，GRPO随着训练上升非常明显，Icepop维持在较低水位

我用大白话解释一下：

左图看的是整体情况：IcePop整体很稳，GRPO整体上越来越不稳定。
右图看的是极端情况：GRPO不仅整体不稳定，在最坏情况下的差异还在持续恶化。而IcePop在最坏情况下，差异也远小于GRPO，并保持在相对可控的范围内。

另一个则是自研的高性能强化学习系统ASystem，它的任务只有一个，搞定万亿参数这种巨无霸模型的训练。

模型的个头太大，把它塞进显卡里，内存会爆掉。那就只把当前计算需要的那一小部分数据放进显卡。模型需要在一个安全的环境里不断练习才能进步。那就提供多个独立的练习房（沙箱），模型想练就练，而且每秒能支撑上万次练习。

可能很多人不知道蚂蚁还闷声搞了不少事，在模型层除了基础语言模型Ling-1T和这次的推理模型Ring-1T，马上还会更新多模态模型Ming，框架层也没放过，除了上面提到的Asystem，还有多智能体系统框架AWorld，应用层也还有，除了上面提到的多Agent百宝箱，还有AI健康管家AQ、AI理财管家蚂小财、AI生活管家该有的都有了，这样来看，蚂蚁开源模型更像是件顺手的事。

撰写：卡尔

本文由人人都是产品经理作者【卡尔的AI沃茨】，微信公众号：【卡尔的AI沃茨】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。