首页 排行榜文章正文

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

排行榜 2025年10月18日 19:12 0 aa
图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

图灵奖得主约书亚·本吉奥领衔的27人研究团队刚刚发布了一份可能改变人工智能发展方向的论文。这份题为《AGI的定义》的研究报告显示,即使是预计于2025年问世的GPT-5,在通用智能的综合评分中也仅能达到58%——这一结论不仅为持续数月的AI能力争论提供了量化依据,更揭示了当前大语言模型发展路径上被刻意掩盖的根本性缺陷。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

这场争论的核心在于一个看似简单却长期悬而未决的问题:人工通用智能究竟应该如何定义?OpenAI、谷歌等科技巨头坚信扩展定律能够通向AGI,而强化学习之父理查德·萨顿、纽约大学的加里·马库斯、图灵奖得主杨立昆则从不同角度质疑这条路径的可行性。萨顿认为当前系统过度依赖人类标注数据而缺乏真正的学习机制,马库斯反复强调模型的推理能力存在根本缺陷,杨立昆更直言纯语言模型永远无法达到人类水平的智能。

双方之所以无法达成共识,根本原因在于缺乏一个明确的评判标准。当AGI的定义本身模糊不清时,任何一方都能为自己的论点找到支撑。本吉奥团队的研究正是要填补这一空白,他们试图建立一个既科学严谨又具备可操作性的评估框架,将抽象的通用智能概念转化为可测量的具体指标。

从心理测量学借来的坐标系

这项研究最大的创新在于选择了一个意想不到的参照系统:卡特尔-霍恩-卡罗尔理论,这是心理学界经过近一个世纪的实证研究发展出的最权威的人类智力结构模型。CHC理论基于对460多项认知能力研究的系统性分析,将人类智能描绘为一个三层金字塔结构,从顶层的一般智力因素,到中层的十大广义能力,再到底层的80多种具体技能。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

研究团队将这一框架改编为AGI评估体系,确定了十个核心维度:通用知识、读写能力、数学能力、即时推理、工作记忆、记忆存储、长期记忆检索、视觉处理、听觉处理和处理速度。每个维度平均占据总分的10%,构成了一个全面而平衡的评价体系。这种设计的巧妙之处在于,它不是凭空想象AI应该具备什么能力,而是以唯一已知的通用智能范例——人类大脑——作为蓝图。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

论文为AGI设定的基准是"受过良好教育的成年人"的认知水平。这个标准既有现实依据,又避免了不切实际的期望。它不要求AI同时拥有爱因斯坦的物理学才华、莫扎特的音乐天赋和莎士比亚的文学造诣,而是衡量一个认知能力全面发展的个体可能达到的熟练水平。更重要的是,这个标准具备高度的可操作性,每个维度下的细分能力都有具体的测试方法和公开数据集作为参考。

当这个评估框架应用于当代最先进的AI模型时,结果展现出一幅令人深思的能力分布图。GPT-4的AGI总分为27%,预期中的GPT-5能达到58%——这个数字本身就足以说明,即使是最乐观的预测,离真正的通用智能仍有相当距离。但更关键的信息隐藏在这些总分背后的细节中。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

被遮蔽的结构性缺陷

当前AI系统的能力呈现出极端不均衡的分布模式。在通用知识、读写能力和数学能力上,模型展现出接近甚至超越人类的熟练度,这与公众的直观感受一致——大语言模型确实是强大的知识库和文本处理工具。然而在另一些同样被认为是智能核心要素的领域,模型的表现则是灾难性的。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

最触目惊心的是长期记忆存储能力上的零分。无论是GPT-4还是GPT-5,在这个维度上的评分都是刺眼的0%。这意味着当前的AI系统患有严重的失忆症,它们无法从与用户的持续互动中积累经验、形成个性化记忆或修正先前的错误。每一次对话都是冷启动,每一个用户都是陌生人。这从根本上限制了AI成为真正智能伙伴的可能性,因为任何有意义的关系都建立在共同记忆的基础之上。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

更细致的分项评估揭示了三个关键短板。第一是不可靠性,在长期记忆检索模块下的"幻觉"分项上,两个模型都得到零分。虽然GPT-5声称大幅减少了幻觉率,但相较于人类标准,它仍然是一个完全不可靠的信息来源。这解释了为什么业界广泛采用检索增强生成技术——本质上是用外部搜索引擎作为拐杖,掩盖模型无法可靠提取内部知识的根本缺陷。

第二是认知僵化。在即时推理模块中的"适应"分项上,即使进步显著的GPT-5也得到零分。这项能力通过威斯康星卡片分类测验评估,要求智能体在规则悄然改变后能够放弃旧策略、适应新规则。AI的失败表明它擅长在固定规则下执行任务,但当环境发生未明确告知的变化时,会表现出极端的认知僵化。它们缺乏一种元认知能力,无法意识到当前方法已不再有效。在动态开放的真实世界中,这种僵化将是致命的。

第三是对物理世界的浅薄理解。尽管GPT-5展现出改进的多模态能力,能够处理图像和声音,但在更深层次的空间推理和结构理解上得分为零。它能识别图片里有什么物体,却无法理解复杂的空间关系或进行心理旋转等抽象视觉推理。在听觉处理上,它能完成语音识别和合成,但在理解语言声音底层结构的音素编码和节奏能力上同样为零。模型打开了连接物理世界的窗户,但远未理解窗外的风景。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

这些发现与学术界批评者的观点高度吻合。萨顿批评的缺乏真正学习机制、马库斯指出的推理缺陷、杨立昆强调的世界模型缺失,在这个量化框架中都找到了精确的对应。更重要的是,研究团队揭示了一个被刻意忽视的现象:能力扭曲。

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

图灵奖得主本吉奥领衔27位顶尖AI科学家发布《通用智能的定义》

通用性的虚假繁荣

能力扭曲指的是AI系统利用其在某些维度上的压倒性优势来掩盖或绕过基础能力的根本性缺陷,从而制造出一种看似通用的脆弱假象。论文识别出两种典型的扭曲模式,它们都试图用取巧的方法掩盖长期记忆这个致命短板。

第一种是用工作记忆冒充长期记忆。通过支持越来越长的上下文窗口——从最初的几千token扩展到如今的数百万token——模型似乎能够"记住"海量历史信息。但这本质上是工作记忆的暴力延伸,而非真正的长期记忆存储。用户需要在每次对话时将所有历史信息重新输入,这不仅计算成本极高、效率低下,而且当任务时间跨度超过上下文窗口限制时便会彻底失效。这就像一个人只有短期记忆而没有长期记忆一样,必须随身携带一本巨大的笔记本,每次对话前都要重新阅读全部内容。

第二种是用外部搜索冒充内部检索。检索增强生成技术已成为业界标准配置,模型在回答问题前先从外部数据库搜索相关信息。研究团队一针见血地指出,这是一根拐杖,它掩盖了模型在两个层面的记忆缺陷:一是无法精准可靠地从自身庞大的参数知识中进行检索,二是完全没有一个动态更新的、用于记录个体经验的私有记忆库。这种依赖外部工具的策略使得模型在无法联网的场景下立即沦为不可靠的信息源。

能力扭曲的识别具有深远意义。它提醒我们不能仅因为一个系统在某些任务上表现出色,就误认为它具备了底层的通用智能。这种表面繁荣可能建立在不稳定的基础之上,在关键场景下随时可能崩溃。更重要的是,如果产业界持续依赖这些权宜之计而不是解决根本问题,可能会在错误的方向上越走越远。

这个评估框架的价值不仅在于提供了一张当前AI能力的精确地图,更在于它明确指出了通往真正AGI需要突破的关键瓶颈。从27%到58%的进步主要来自于强项的继续增强,而那些得分为零的维度才是真正的硬骨头。如果未来的模型仍然在这些核心能力上毫无建树,那么无论总分如何提高,都无法称之为真正的通用智能。

当然,这个框架也存在局限性。研究者承认测试主要基于英语和西方文化背景,权重分配可能需要进一步讨论,某些能力的测量方法仍需完善。但作为首个系统性的AGI评估标准,它已经为这个领域提供了急需的共同语言和讨论基础。

更深层的意义在于,这个框架揭示了当前AI发展中的一个根本性问题:我们是否在用技术扩张掩盖能力缺失?当模型参数从千亿增长到万亿,上下文窗口从千token扩展到百万token,计算资源投入呈指数级增长时,是否只是在用蛮力延伸强项而回避弱项?真正的突破可能不在于继续扩大规模,而在于重新审视那些被忽视的基础能力,特别是记忆系统、适应性学习和世界模型的构建。

从这个角度看,本吉奥团队的研究不仅是一次学术定义的尝试,更是对整个AI产业发展方向的深刻质疑。它告诉我们,通往AGI的道路可能比想象中更加曲折,而明确我们距离目标还有多远,远比制造已经接近目标的幻觉更加重要。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap