开局就“抢跑”。10月7日,快手率先点燃预售引线;10月9日,抖音电商与京东同步开闸,京东直接打出“现货开卖,不用等”;淘宝天猫定于10月15日起步,...
2025-10-15 1
两周前还在围观 Ring-1T-preview 的数学题解法,昨夜蚂蚁突然甩出全球首个开源万亿思考模型 Ring-1T,这个让 GPT-5 都捏了把汗的选手,不仅在 IMO 奥数题里解出银牌水平,连画骑自行车的鹈鹕都能精准甩出竞品三条街(DeepSeek 的鹈鹕至今坚持脚身分离)。当 Icepop 算法冻住万亿参数的训练崩裂,当 ASystem 让模型在沙箱里每秒练上万次,那个能种树的蚂蚁,这次真的在 AI 开源赛道上,把 "思考" 卷出了新高度。
蚂蚁最近好卷啊,两周内先后开源了Ring-1T-preview、Ling-1T和Ring-1T,Ring-1T同时是全球首个开源的万亿思考模型,这名头够响亮,也够让我半夜开机来个全面测试。
在正式开测前,我觉得需要理一下蚂蚁这一系列新模型,蚂蚁,就是我们手机里那个能种树、能付钱的支付宝蚂蚁,
他们发布的大模型中文名叫百灵,有三个系列,Ling代表语言模型,Ring代表思考模型,Ming则代表多模态模型。
跟preview版不同,正式版Ring-1T完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习训练提升了推理能力,通过RLHF训练提升了模型通用能力。
来看看纸面实力吧,Ring-1T在数学竞赛(AIME 25、HMMT 25),代码生成(LiveCodeBench、CodeForce-Elo),逻辑推理(ARC-AGI-v1)上达到了开源SOTA水平。
光速开测,用的是我的大模型噩梦级测试案例1.1版,跟DeepSeek V3.2(开深度思考)来个PK。公开所有提示语,每个提示语跑三次,取效果最好的一次作为最终结果。包括SVG、物理模拟、前端设计、可交互3D四大类
先来个SVG热热身,绘制一个骑自行车的鹈鹕的 SVG 图像
Ring-1T(左侧)差个脚踏,轮子、车架、鸟本体都有了,而 DeepSeek V3.2 画出来的鹈鹕还是如此稳定实现了脚身分离,方向也反了,车把也没了。
为了让大家清晰看出差别,我又又又又把另外16个模型的跑出来的鹈鹕拿出来了,什么看到能忍不住不笑啊
再来看看常见的物理模拟,用 HTML、CSS 和 JavaScript 实现这样一个效果:一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用,并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。
Ring-1T和DeepSeek V3.2都提供了多项参数选择,包含但不限于小球重置,增减六边形旋转速度,还可以取消动力,Ring-1T在这个基础上还增加了反弹和墙面摩擦力。
接着测测UI组件,复刻我天天见的界面,帮我做一个 Microsoft Word 的克隆版本,但只需要前端部分。
上次测试了Excel,这次测测看word文档的复刻效果怎么样,除了加粗、斜体、下划线,Ring-1T还可以实现字体大小调整,左中右对齐。界面本体和功能切换上真能唬住我,这种case测起来就有种惊喜感,明明没有期待它能完成除了前端外的别的功能,但是抽盲盒能抽出来。
Create animated cards in HTML, JS, and CSS with hover effects, transitions, and responsive design. Include 3-5 cards with different content.
这个属于是天气组件的变体,不做任何限制,就让模型出卡,它们都选择了带放大特效和按钮变色。我发现DeepSeek V3.2特别喜欢用暖色,Ring-1T反而喜欢用冷色调,有点想测测它们的16人格了。
UI测完了,来个可交互的3D界面,
好久没做贪吃蛇了,来看看现在能做到什么程度了
Build a complex Snake game in JavaScript with power-ups, multiple levels, and score tracking UI.
现在已经可以给贪吃蛇加上速度、磁力、双倍积分和护盾了,DeepSeek V3.2把色块做出来了,但是没有起到作用。
回到模型本身,Ring-1T在Ling-1T-base基础上通过LongCoT-SFT + RLVR + RLHF多阶段训练出来的,Ling-1T用的是MoE结构,前4层是dense结构,后面76层才是MoE,一共256个专家,每次激活参数约51B,预训练数据20T Tokens,全程采用FP8精度训练
除了直接对话,Ring-1T也已经上线到蚂蚁的多Agent平台百宝箱里了,百宝箱我之前也做过测评,几步就可以拉起一个自己的Agent团队,还可以在支付宝上kuku收钱。
终于有个简单的多Agent入门教程了,蚂蚁这次上大分
在训练过程中,蚂蚁还有两大神器。
一个叫Icepop,中文叫棒冰的算法,它的作用就是当一根棒冰(字面意义上),给模型的强化学习训练过程降温,通过修正了训练和推理阶段的精度差异,避免了长周期训练中GRPO算法可能出现的崩溃问题。
在技术报告里面放出了两张图,
图左:GRPO训推差异随着训练成指数上升,Icepop较为平稳;
图右:训推差异最大值,GRPO随着训练上升非常明显,Icepop维持在较低水位
我用大白话解释一下:
另一个则是自研的高性能强化学习系统ASystem,它的任务只有一个,搞定万亿参数这种巨无霸模型的训练。
模型的个头太大,把它塞进显卡里,内存会爆掉。那就只把当前计算需要的那一小部分数据放进显卡。模型需要在一个安全的环境里不断练习才能进步。那就提供多个独立的练习房(沙箱),模型想练就练,而且每秒能支撑上万次练习。
可能很多人不知道蚂蚁还闷声搞了不少事,在模型层除了基础语言模型Ling-1T和这次的推理模型Ring-1T,马上还会更新多模态模型Ming,框架层也没放过,除了上面提到的Asystem,还有多智能体系统框架AWorld,应用层也还有,除了上面提到的多Agent百宝箱,还有AI健康管家AQ、AI理财管家蚂小财、AI生活管家该有的都有了,这样来看,蚂蚁开源模型更像是件顺手的事。
撰写:卡尔
本文由人人都是产品经理作者【卡尔的AI沃茨】,微信公众号:【卡尔的AI沃茨】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关文章
开局就“抢跑”。10月7日,快手率先点燃预售引线;10月9日,抖音电商与京东同步开闸,京东直接打出“现货开卖,不用等”;淘宝天猫定于10月15日起步,...
2025-10-15 1
财联社10月15日讯(编辑 黄君芝)关于人工智能(AI)繁荣究竟是不是泡沫,华尔街传来的警告声越来越大:答案似乎是绝对的!摩根大通首席执行官杰米·戴蒙...
2025-10-15 1
两周前还在围观 Ring-1T-preview 的数学题解法,昨夜蚂蚁突然甩出全球首个开源万亿思考模型 Ring-1T,这个让 GPT-5 都捏了把汗...
2025-10-15 1
10月10日至11日,由河南省卫健委医疗应急处、河南省医学会、河南省医学会创伤学分会主办,河南省人民医院和河南省创伤应急救援中心承办的2025年河南省...
2025-10-15 1
10月17日,“丝路云购・惠享齐鲁”2025山东“丝路国家主题周”活动将在济南报业大厦正式拉开帷幕。本次活动作为商务部2025“丝路电商惠全球”主题活...
2025-10-15 2
自然资源部2025-10-15 15:02:45新媒体传播案例征集展播为深入学习宣传贯彻习近平新时代中国特色社会主义思想特别是习近平生态文明思想和习近...
2025-10-15 1
原钉钉副总裁林锋要离职创业做AI办公硬件了,这事儿最近在阿里圈子里传得挺热闹。不过有意思的是,阿里官方到现在都没吭声,既不承认也不否认,这态度倒挺符合...
2025-10-15 1
你发现了吗?双十一,真的是一年比一年更早。虽然这节日的名字叫“双十一”,但活动开始得时间却提前了大半个月,各大电商平台几乎都已经开始了,而小米呢?今年...
2025-10-15 1
发表评论