震惊了！大模型解心算题只靠最后一步，背后AI 应用大有门道

今日新闻 2025年09月18日 00:19 0 admin

文 /编辑：雨

大语言模型在解心算题时，只依赖最后一个 token（可以理解为字符）？

现在的大语言模型可真不简单，能帮着写稿子，还能算数学题，可它“脑子里”到底咋琢磨的，谁也看不透里头的门道。

最近有群研究人员弄出个新鲜发现，把大家对大语言模型算心算题的想法全给改了。

他们发现，模型算心算题的时候，几乎所有的数学计算，都堆在最后一个字符（也就是 token）上完成，不是让所有字符一起分摊着算。

这群研究人员来自国外三所机构，有加州大学圣克鲁兹分校、乔治・梅森大学，还有个叫 Datadog 的公司。

他们为了把这事弄明白，用了两种专门的技术，对着 Llama-3-8B 这类常用的大语言模型做实验。

实验的法子也实在，就是故意去掉模型的一些部分，或者改改它的设置，看看最少留下多少计算能力，模型还能把心算题算对。

结果没成想，模型内部自己形成了一条简单的计算路子，研究人员给它起了个好记的名字，叫 “人人为我”。

这个 “人人为我” 的干活过程，说起来跟大家生活里的事挺像。

就拿算 “42+20-15” 这种题来说，模型一开始接收到的那些数字、加号、减号，在前几个过程，根本不碰跟自己数值相关的计算，就跟工厂里的工人先做准备工作似的，光等着不干活，只做些基础的活。

比如认清楚哪个是数字 “42”，哪个是加号 “+”，把这些信息先整理好。

等轮到中间，就把整理好的信息一股脑全传给最后一个字符。

到最后全靠这个 “压轴” 的，把所有计算都扛下来，算出答案告诉大家。

研究人员还在其他模型上试了试，像 Pythia 和 GPT-J 这两种，也发现了差不多的情况。

不过这些模型 “等活” 的步骤少了点，传递信息的层数多了些，算题的准确度也不如 Llama-3-8B，有时候算得对，有时候就差那么点。

更有意思的是，要是把心算题换成需要读明白文字的题目，比如 “小明有 5 个苹果，妈妈又给了 3 个，现在一共有几个”。

或者让模型看 Python 代码算结果，这个只靠最后一个步骤的法子就彻底不管用了，模型根本算不对，就跟老眼昏花的人看不清楚小字似的。

其实以前大伙儿都觉得，大语言模型算题厉害，是因为它能用一种叫 “Transformer” 的架构，让每个 “小零件” 随时都能调取所有信息，一起商量着解决问题，就跟一群人围着出主意似的。

现在看来，对付心算这种简单题，模型根本不用这么麻烦。

非常像常见的小区门口早餐摊流水线，前面的人负责拿包子、递豆浆，最后一个人负责收钱、找零，分工明确，效率反倒更高。

而且研究人员还发现，Llama-3-8B 里负责算心算题的关键步骤其实没几个，哪怕去掉快 60 个，模型算题的准确率还能保持在 95% 左右，这说明很多步骤其实是多余的，可有可无。

这个发现不光让他们知道了大语言模型算心算题的小秘密，对国内用 AI 也有实实在在的帮助。

国家现在对 AI 技术非常重视，从手机上的语音助手，到工厂里的智能设备，AI 早就融进了生活的方方面面。

可技术越厉害，越得弄清楚它到底咋工作的，不然就跟开车不知道刹车在哪似的，心里不踏实。

这个发现就像能帮着大家更懂这些 “智能大脑”。

以后顺着这个思路往下走，说不定能做出更省电、更管用的 AI，不管是帮学生算题，还是帮上班族处理简单的数据，都能更贴合大家的需求。

毕竟好的技术，不光要厉害，还得接地气，能真正帮到有需要的人。

信源：新浪科技 2025-09-14 大语言模型在解心算题时，只依赖最后一个token？

客服也能被AI替代?AI数字员工已在研发，能解决70%问题

发表评论