说到iPhone17,很多网友都表示苹果这次把“牙膏”挤爆了,其实冷静下来分析,iPhone 17并不算全面革新,主要就是带来了两个比较关键调整,从而...
2025-09-18 0
文 /编辑:雨
大语言模型在解心算题时,只依赖最后一个 token(可以理解为字符)?
现在的大语言模型可真不简单,能帮着写稿子,还能算数学题,可它“脑子里”到底咋琢磨的,谁也看不透里头的门道。
最近有群研究人员弄出个新鲜发现,把大家对大语言模型算心算题的想法全给改了。
他们发现,模型算心算题的时候,几乎所有的数学计算,都堆在最后一个 字符(也就是 token)上完成,不是让所有字符一起分摊着算。
这群研究人员来自国外三所机构,有加州大学圣克鲁兹分校、乔治・梅森大学,还有个叫 Datadog 的公司。
他们为了把这事弄明白,用了两种专门的技术,对着 Llama-3-8B 这类常用的大语言模型做实验。
实验的法子也实在,就是故意去掉模型的一些部分,或者改改它的设置,看看最少留下多少计算能力,模型还能把心算题算对。
结果没成想,模型内部自己形成了一条简单的计算路子,研究人员给它起了个好记的名字,叫 “人人为我”。
这个 “人人为我” 的干活过程,说起来跟大家生活里的事挺像。
就拿算 “42+20-15” 这种题来说,模型一开始接收到的那些数字、加号、减号,在前几个过程,根本不碰跟自己数值相关的计算,就跟工厂里的工人先做准备工作似的,光等着不干活,只做些基础的活。
比如认清楚哪个是数字 “42”,哪个是加号 “+”,把这些信息先整理好。
等轮到中间,就把整理好的信息一股脑全传给最后一个 字符。
到最后全靠这个 “压轴” 的,把所有计算都扛下来,算出答案告诉大家。
研究人员还在其他模型上试了试,像 Pythia 和 GPT-J 这两种,也发现了差不多的情况。
不过这些模型 “等活” 的步骤少了点,传递信息的层数多了些,算题的准确度也不如 Llama-3-8B,有时候算得对,有时候就差那么点。
更有意思的是,要是把心算题换成需要读明白文字的题目,比如 “小明有 5 个苹果,妈妈又给了 3 个,现在一共有几个”。
或者让模型看 Python 代码算结果,这个只靠最后一个 步骤的法子就彻底不管用了,模型根本算不对,就跟老眼昏花的人看不清楚小字似的。
其实以前大伙儿都觉得,大语言模型算题厉害,是因为它能用一种叫 “Transformer” 的架构,让每个 “小零件” 随时都能调取所有信息,一起商量着解决问题,就跟一群人围着出主意似的。
现在看来,对付心算这种简单题,模型根本不用这么麻烦。
非常像常见的小区门口早餐摊流水线 ,前面的人负责拿包子、递豆浆,最后一个人负责收钱、找零,分工明确,效率反倒更高。
而且研究人员还发现,Llama-3-8B 里负责算心算题的关键步骤 其实没几个,哪怕去掉快 60 个,模型算题的准确率还能保持在 95% 左右,这说明很多 步骤其实是多余的,可有可无。
这个发现不光让他们知道了大语言模型算心算题的小秘密,对国内用 AI 也有实实在在的帮助。
国家现在对 AI 技术非常重视,从手机上的语音助手,到工厂里的智能设备,AI 早就融进了生活的方方面面。
可技术越厉害,越得弄清楚它到底咋工作的,不然就跟开车不知道刹车在哪似的,心里不踏实。
这个发现就像能帮着大家更懂这些 “智能大脑”。
以后顺着这个思路往下走,说不定能做出更省电、更管用的 AI,不管是帮学生算题,还是帮上班族处理简单的数据,都能更贴合大家的需求。
毕竟好的技术,不光要厉害,还得接地气,能真正帮到有需要的人。
信源:新浪科技 2025-09-14 大语言模型在解心算题时,只依赖最后一个token?
相关文章
说到iPhone17,很多网友都表示苹果这次把“牙膏”挤爆了,其实冷静下来分析,iPhone 17并不算全面革新,主要就是带来了两个比较关键调整,从而...
2025-09-18 0
文 /编辑:雨大语言模型在解心算题时,只依赖最后一个 token(可以理解为字符)?现在的大语言模型可真不简单,能帮着写稿子,还能算数学题,可它“脑子...
2025-09-18 0
文 | 新识研究所今年的追觅格外的“闹腾”:8月20日,追觅宣布了要拓展无人机业务;8月28日,追觅科技宣布造车,对标千万元级别的布加迪威龙;9月10...
2025-09-18 0
作者: 腾讯 QQ 游戏中心 谢易成一、背景Kuikly 是腾讯广泛应用的跨端开发框架,基于 Kotlin Multiplatform 技术构建,为开...
2025-09-18 0
多模态大模型(LMMs)正以前所未有的速度重塑我们对人工智能的想象边界。从流畅的图文对话到根据文字生成高清视频,其能力令人叹为观止。业界和公众的目光往...
2025-09-18 0
项目地址:github.com/starslink/d… 高性能、多策略的数据对账框架,支持内存、流式、并行、Redis、数据库等多种处理方式✨ 特性...
2025-09-18 0
本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:花儿6699200 多拿下品牌投影仪?这波捡漏我先冲了!好久没聊投影仪了,今天必须给你们安...
2025-09-18 0
人工智能的浪潮远未结束,但投资者需要从狂热追逐转向精明的"高低切换"策略。当一部分股票高高在上时,另一部分真正有潜力的标的却还在低位徘徊。随着市场进入...
2025-09-18 0
发表评论