首页 排行榜文章正文

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

排行榜 2025年10月15日 17:02 1 aa

两周前还在围观 Ring-1T-preview 的数学题解法,昨夜蚂蚁突然甩出全球首个开源万亿思考模型 Ring-1T,这个让 GPT-5 都捏了把汗的选手,不仅在 IMO 奥数题里解出银牌水平,连画骑自行车的鹈鹕都能精准甩出竞品三条街(DeepSeek 的鹈鹕至今坚持脚身分离)。当 Icepop 算法冻住万亿参数的训练崩裂,当 ASystem 让模型在沙箱里每秒练上万次,那个能种树的蚂蚁,这次真的在 AI 开源赛道上,把 "思考" 卷出了新高度。

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

蚂蚁最近好卷啊,两周内先后开源了Ring-1T-preview、Ling-1T和Ring-1T,Ring-1T同时是全球首个开源的万亿思考模型,这名头够响亮,也够让我半夜开机来个全面测试。

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

在正式开测前,我觉得需要理一下蚂蚁这一系列新模型,蚂蚁,就是我们手机里那个能种树、能付钱的支付宝蚂蚁,

他们发布的大模型中文名叫百灵,有三个系列,Ling代表语言模型,Ring代表思考模型,Ming则代表多模态模型。

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

跟preview版不同,正式版Ring-1T完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习训练提升了推理能力,通过RLHF训练提升了模型通用能力。

来看看纸面实力吧,Ring-1T在数学竞赛(AIME 25、HMMT 25),代码生成(LiveCodeBench、CodeForce-Elo),逻辑推理(ARC-AGI-v1)上达到了开源SOTA水平。

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

光速开测,用的是我的大模型噩梦级测试案例1.1版,跟DeepSeek V3.2(开深度思考)来个PK。公开所有提示语,每个提示语跑三次,取效果最好的一次作为最终结果。包括SVG、物理模拟、前端设计、可交互3D四大类

先来个SVG热热身,绘制一个骑自行车的鹈鹕的 SVG 图像

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

Ring-1T(左侧)差个脚踏,轮子、车架、鸟本体都有了,而 DeepSeek V3.2 画出来的鹈鹕还是如此稳定实现了脚身分离,方向也反了,车把也没了。

为了让大家清晰看出差别,我又又又又把另外16个模型的跑出来的鹈鹕拿出来了,什么看到能忍不住不笑啊

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

再来看看常见的物理模拟,用 HTML、CSS 和 JavaScript 实现这样一个效果:一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用,并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。

Ring-1T和DeepSeek V3.2都提供了多项参数选择,包含但不限于小球重置,增减六边形旋转速度,还可以取消动力,Ring-1T在这个基础上还增加了反弹和墙面摩擦力。

接着测测UI组件,复刻我天天见的界面,帮我做一个 Microsoft Word 的克隆版本,但只需要前端部分。

上次测试了Excel,这次测测看word文档的复刻效果怎么样,除了加粗、斜体、下划线,Ring-1T还可以实现字体大小调整,左中右对齐。界面本体和功能切换上真能唬住我,这种case测起来就有种惊喜感,明明没有期待它能完成除了前端外的别的功能,但是抽盲盒能抽出来。

Create animated cards in HTML, JS, and CSS with hover effects, transitions, and responsive design. Include 3-5 cards with different content.

这个属于是天气组件的变体,不做任何限制,就让模型出卡,它们都选择了带放大特效和按钮变色。我发现DeepSeek V3.2特别喜欢用暖色,Ring-1T反而喜欢用冷色调,有点想测测它们的16人格了。

UI测完了,来个可交互的3D界面,

好久没做贪吃蛇了,来看看现在能做到什么程度了

Build a complex Snake game in JavaScript with power-ups, multiple levels, and score tracking UI.

现在已经可以给贪吃蛇加上速度、磁力、双倍积分和护盾了,DeepSeek V3.2把色块做出来了,但是没有起到作用。

回到模型本身,Ring-1T在Ling-1T-base基础上通过LongCoT-SFT + RLVR + RLHF多阶段训练出来的,Ling-1T用的是MoE结构,前4层是dense结构,后面76层才是MoE,一共256个专家,每次激活参数约51B,预训练数据20T Tokens,全程采用FP8精度训练

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

除了直接对话,Ring-1T也已经上线到蚂蚁的多Agent平台百宝箱里了,百宝箱我之前也做过测评,几步就可以拉起一个自己的Agent团队,还可以在支付宝上kuku收钱。

终于有个简单的多Agent入门教程了,蚂蚁这次上大分

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

在训练过程中,蚂蚁还有两大神器。

一个叫Icepop,中文叫棒冰的算法,它的作用就是当一根棒冰(字面意义上),给模型的强化学习训练过程降温,通过修正了训练和推理阶段的精度差异,避免了长周期训练中GRPO算法可能出现的崩溃问题。

在技术报告里面放出了两张图,

实测蚂蚁万亿新思考模型Ring-1T,跟DeepSeek V3.2拼一把

图左:GRPO训推差异随着训练成指数上升,Icepop较为平稳;

图右:训推差异最大值,GRPO随着训练上升非常明显,Icepop维持在较低水位

我用大白话解释一下:

  • 左图看的是整体情况:IcePop整体很稳,GRPO整体上越来越不稳定。
  • 右图看的是极端情况:GRPO不仅整体不稳定,在最坏情况下的差异还在持续恶化。而IcePop在最坏情况下,差异也远小于GRPO,并保持在相对可控的范围内。

另一个则是自研的高性能强化学习系统ASystem,它的任务只有一个,搞定万亿参数这种巨无霸模型的训练。

模型的个头太大,把它塞进显卡里,内存会爆掉。那就只把当前计算需要的那一小部分数据放进显卡。模型需要在一个安全的环境里不断练习才能进步。那就提供多个独立的练习房(沙箱),模型想练就练,而且每秒能支撑上万次练习。

可能很多人不知道蚂蚁还闷声搞了不少事,在模型层除了基础语言模型Ling-1T和这次的推理模型Ring-1T,马上还会更新多模态模型Ming,框架层也没放过,除了上面提到的Asystem,还有多智能体系统框架AWorld,应用层也还有,除了上面提到的多Agent百宝箱,还有AI健康管家AQ、AI理财管家蚂小财、AI生活管家该有的都有了,这样来看,蚂蚁开源模型更像是件顺手的事。

撰写:卡尔

本文由人人都是产品经理作者【卡尔的AI沃茨】,微信公众号:【卡尔的AI沃茨】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap