【VRAR星球原创稿件,未经许可禁止转载】摘要:带你一口气看完所有新品和背后的精彩细节。每年 9 月,Meta 总是全球科技圈当之无愧的“顶流”。传闻...
2025-09-21 0
840亿估值的AI公司,成立半年没产品,投资人追着塞钱;如今甩出首个研究,直接把大模型的“精神分裂症”给治了——这不是爽文,是硅谷正在上演的现实。OpenAI前CTO Mira Murati带队,三分之二员工来自OpenAI,20亿美元种子轮创纪录,现在他们告诉你:LLM推理结果忽左忽右?元凶是批次大小在搞鬼。从“空气估值”到“技术硬菜”,这波操作,到底是AI圈的新神话,还是给巨头们敲响的丧钟?
今年6月,当Thinking Machines宣布完成20亿美元种子轮融资时,硅谷的吐槽声差点把融资发布会的屋顶掀了。“一家没模型、没产品、连官网都只有个域名的公司,凭什么估值120亿美元(约840亿人民币)?”“投资人是拿着显微镜看PPT,还是闭着眼数钱?”更有人翻出团队名单:前OpenAI CTO、PPO算法之父、GPT-4o核心开发者……三分之二员工带着OpenAI工牌跳槽,活脱脱一个“OpenAI校友创业联盟”。
当时业内的共识是:这钱,多半是投给“OpenAI前员工”这块金字招牌的。毕竟在AI圈,“前OpenAI”三个字比哈佛毕业证还管用——就像当年Google Brain系创业者横扫硅谷一样,如今OpenAI系成了资本眼中的“行走印钞机”。但质疑声也很尖锐:一群从巨头出来的人,真能做出不一样的东西?还是换个马甲继续炒冷饭?
现在,答案来了。9月11日,Thinking Machines甩出首篇研究博客,标题直戳痛点:《Defeating Nondeterminism in LLM Inference》(击败LLM推理中的非确定性)。简单说,就是解决了“同一个问题问ChatGPT两次,答案可能不一样”的世纪难题。
这事儿多重要?打个比方:你去银行转账,输入同样的金额、账户,今天转显示成功,明天转显示失败——谁受得了?大模型推理也是一个道理。医疗AI诊断病情,今天说良性明天说恶性;自动驾驶AI识别路标,这次认红灯下次认绿灯——这种“薛定谔的输出”,让大模型在关键场景根本不敢用。过去行业默认“这是浮点运算的锅”,但Thinking Machines说:不,元凶是“批次大小”在搞鬼。
从“空气估值”到拿出“硬技术”,这家公司只用了3个月。现在再看840亿估值,投资人怕是偷偷笑出了声:这哪是割韭菜,分明是捡到宝了。
要理解Thinking Machines到底干了啥,得先搞懂:为啥大模型会“精神分裂”?
你可能遇到过:问ChatGPT“推荐一部科幻电影”,第一次说《星际穿越》,第二次说《银翼杀手》。就算把“采样温度”调到0(理论上只选概率最高的答案),结果还是可能不一样。过去行业解释是“GPU浮点运算不精确”——就像你算1+2+3,先算1+2=3再+3=6,和先算2+3=5再+1=6,结果一样;但换成浮点数,比如0.1+0.2+0.3,先算0.1+0.2=0.300000004,再+0.3=0.600000004;先算0.2+0.3=0.5,再+0.1=0.6——结果差了0.000000004。这种微小误差,在Transformer几十层迭代后被放大,最后输出完全不同。
但Thinking Machines团队较真了:如果真是浮点运算的锅,为啥在GPU上重复跑同一个矩阵乘法,结果总能一样?他们扒开大模型推理的底层代码,发现了更隐蔽的问题:批次大小。
简单说,大模型服务器处理请求时,会把多个用户的提问打包成“批次”一起算——就像食堂打饭,100人吃饭就开10个窗口,50人吃饭开5个窗口。但问题来了:窗口数量(批次大小)一变,“打饭顺序”(计算顺序)就跟着变。比如矩阵乘法,批次大的时候按A→B→C的顺序算,批次小的时候按C→B→A的顺序算;浮点运算的“非结合性”(就是0.1+0.2+0.3的例子),让这两种顺序算出的结果有微小差异。
更要命的是,这种差异会在Transformer里“滚雪球”。第一层差0.0000001,第二层差0.00001,到第三十层可能就差出一个完全不同的token——就像蝴蝶效应,亚马逊雨林一只蝴蝶扇翅膀,最后得克萨斯州刮龙卷风。大模型推理的“精神分裂”,本质上是“批次大小变化导致计算顺序变化,最终输出跑偏”。
这问题咋解决?Thinking Machines的思路简单粗暴:不管批次大小怎么变,计算顺序必须固定死。就像食堂打饭,不管100人还是50人,都按“从左到右、从前到后”的顺序打,绝不允许换顺序。具体到技术上,他们给RMSNorm、矩阵乘法、注意力机制这三个核心模块,分别上了“紧箍咒”。
比如RMSNorm(大模型里的归一化层),过去批次大了就多开几个核心并行算,批次小了就少开几个;现在不管批次多大,每个核心只处理一个批次元素,算完一个再算下一个——效率可能低一点,但顺序绝对不乱。矩阵乘法更狠:直接放弃动态调整并行策略,不管输入形状啥样,都用同一套内核配置,哪怕比行业标杆CuBLAS慢20%,也要换“输出稳定”。
效果立竿见影:用Qwen3-235B大模型测试,1000个相同输入,在不同批次大小下,老方法有80个结果不同;用他们的方法,1000个结果完全一样。大模型的“精神分裂症”,被治好了。
看到这里你可能会问:为了稳定,牺牲20%性能,值吗?
在这个“参数竞赛”疯狂内卷的AI圈,答案似乎是否定的。毕竟现在的大模型,个个都在比“谁算得更快、谁参数更多”——GPT-4o吹“速度提升2倍”,Gemini Ultra秀“支持100万token上下文”,大家都在踩着油门飙车,生怕慢一秒就被淘汰。Thinking Machines倒好,主动踩刹车,说“我要慢一点,但稳一点”,这不是反其道而行之吗?
但如果你仔细想想,就知道这步棋多聪明。AI圈现在的问题是“跑得太快,忘了为什么出发”。大模型的终极目标是“可靠地解决问题”,而不是“比谁先跑到终点”。就像自动驾驶,你是要一辆百公里加速2秒但偶尔失灵的跑车,还是要一辆加速10秒但从不翻车的沃尔沃?对于医疗、金融、自动驾驶这些关键场景,“稳定”比“快”重要100倍。
更关键的是,20%的性能损失,其实是“可接受的妥协”。Thinking Machines算过账:现在大模型推理的瓶颈,根本不是算力不够,而是“不敢用”。比如一家银行想上AI客服,担心AI今天说“信用卡能延期”明天说“不能延期”,宁愿多雇100个真人客服——这100个人的工资,比20%的算力损耗贵多了。如果能用20%的性能换“绝对可靠”,企业愿意买单。
这群OpenAI前员工,显然看透了行业的“虚火”。他们在OpenAI时,大概率见过太多因为“推理不稳定”导致项目黄掉的案例——比如某个大客户要求“输出必须100%一致”,结果技术团队搞不定,最后只能放弃。现在自己创业,他们不想再重复这种无奈:与其追求“最快”,不如先做到“最稳”。
这就像开车,AI圈现在全是飙车党,而Thinking Machines想当“老司机”——不追求速度纪录,但能把乘客安全送到目的地。在“快”已经内卷到极致的当下,“稳”反而成了稀缺品。
如果你以为Thinking Machines只是解决了一个技术问题,那就太小看他们了。翁荔(前OpenAI安全团队负责人,现Thinking Machines高管)在推文中透露:公司首个产品名叫“Connection Machine”(连接机器),致敬“连接主义”。
这词儿有点老,但分量极重。连接主义是AI的“老祖宗”,上世纪60年代就有了——当时科学家提出“人工神经元模型”,认为智能来自“神经元之间的连接”,而不是规则编程。后来的深度学习、神经网络,都是连接主义的“徒子徒孙”。但这些年,AI圈忙着堆参数、拼算力,早就把“连接主义”的初心忘了——大家更关心“模型有多少参数”,而不是“神经元之间的连接是否合理”。
Thinking Machines把产品名叫“Connection Machine”,摆明了要“复古”:他们想回到AI的本源,从“连接”的底层重构大模型。解决推理确定性,只是第一步——让神经元之间的“连接计算”稳定可靠;接下来,他们可能要重新设计神经网络的架构,甚至挑战现在的“Transformer霸权”。
这野心有多大?相当于特斯拉不只是造电动车,而是要重新定义“汽车”——从轮子到发动机,全部自己来。OpenAI现在走的路是“堆参数+数据”,Google走的是“多模态+通用智能”,而Thinking Machines想走“底层技术重构+连接主义复兴”。
为什么是他们?因为这群人太懂AI的“老底”了。Alec Radford(GPT一作)、Bob McGrew(OpenAI前首席研究官)、John Schulman(PPO算法之父)……这些人是亲手搭建GPT系列的“基建工人”,知道现有大模型的“承重墙在哪儿,裂缝在哪儿”。他们现在出来创业,不是要在现有地基上盖更高的楼,而是想挖掉旧地基,重新打桩——这才是最让巨头们害怕的。
Thinking Machines这波操作,看似只是发了篇论文,实则在AI圈投下了一颗炸弹。最坐不住的,可能是两类人:
第一类是现有大模型巨头,比如OpenAI、Anthropic、Google。他们现在的推理系统,都是按“动态批次”设计的——为了效率,批次大小变,计算顺序就跟着变。如果Thinking Machines证明“批次不变性”是刚需,这些巨头要么跟进(重构底层代码,成本极高),要么被客户抛弃(企业转向更稳定的方案)。就像当年iPhone出来后,诺基亚要么学触屏,要么被淘汰。
第二类是芯片巨头英伟达。Thinking Machines为了“批次不变性”,宁愿不用英伟达优化到极致的CuBLAS库,甚至说“不同的张量核心指令会导致结果变化”——这等于直接说“英伟达的硬件优化,和推理稳定性是冲突的”。如果企业开始追求“稳定”,可能会倒逼英伟达调整芯片设计,甚至给AMD、Intel这些竞争对手机会。
但对整个行业来说,这是好事。AI圈需要这样的“搅局者”——他们带着巨头的基因,却不被巨头的路径依赖绑架;他们有资本撑腰,敢做“短期不赚钱但长期有价值”的事。840亿估值不是终点,而是起点:当“连接主义”重新成为主流,当“推理确定性”成为标配,AI可能会告别“野蛮生长”,真正进入“靠谱时代”。
从840亿“空气估值”到甩出“技术硬菜”,Thinking Machines用3个月证明:在AI圈,“前OpenAI员工”的招牌固然值钱,但更值钱的,是这群人敢“反套路”的勇气——不追参数、不炒概念,而是回到AI最本质的问题:让机器的输出,像数学公式一样可靠。
现在再看“连接主义”的复兴,你会发现:AI的未来,可能不在千亿参数的“超级大脑”里,而在每一个“批次不变”的计算步骤中。毕竟,能把简单的事情做到极致稳定,本身就是一种伟大。
至于那些还在质疑“840亿估值太贵”的人,建议回头看看:2012年,当DeepMind还在研究“AlphaGo”时,也有人说“下围棋的AI值几个钱”——现在,DeepMind的估值已经超过500亿美元了。AI圈的规律从来都是:你看不懂的估值,可能藏着你没看到的未来。"
相关文章
【VRAR星球原创稿件,未经许可禁止转载】摘要:带你一口气看完所有新品和背后的精彩细节。每年 9 月,Meta 总是全球科技圈当之无愧的“顶流”。传闻...
2025-09-21 0
今天给各位分享皮皮麻将有挂没有的知识,其中也会对皮皮麻将不能打了吗进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!皮皮麻将换三张...
2025-09-21 0
技嘉 2025 新品发布会于 9 月 17 日在上海漕河泾会议中心举办,主题为 “从心出发,我们的主张”。此次技嘉以“六心” 核心、注重玩家真实体验为...
2025-09-21 0
840亿估值的AI公司,成立半年没产品,投资人追着塞钱;如今甩出首个研究,直接把大模型的“精神分裂症”给治了——这不是爽文,是硅谷正在上演的现实。Op...
2025-09-21 0
我很失望,最近没怎么做 AI 相关的东西,我发现大家好像总是想把 AI 砸到你的脸上,但是一些能够解决你当下问题的基础需求一直没被看到,有一个功能我等...
2025-09-21 0
字节跳动的“豆包AI”新功能曝光后,市场震动不小。这项新功能不仅能够成为你个人的虚拟助手,甚至还能根据你的需求提供定制化的服务。无论是日常生活中的提醒...
2025-09-21 1
xAI 宣布推出全新一代高性价比 AI 模型——Grok 4 Fast,正式打破“智能 vs 成本”的界限。根据 Artificial Analysi...
2025-09-21 0
日本电子游戏杂志Fami通近日公布的统计数据显示,如今的日本游戏硬件周销量榜上,Switch2依旧高居榜首。其在日本本土的总销量已经超过了200万台(...
2025-09-21 0
发表评论