首页 AI科技文章正文

超级智能的幻觉:牛津报告直指人工智能评估体系的“严谨性危机”

AI科技 2025年11月06日 22:20 2 admin
超级智能的幻觉:牛津报告直指人工智能评估体系的“严谨性危机”

在人工智能(AI)的“淘金热”中,科技公司竞相宣布他们的最新模型达到了“博士级智力”、“近乎人类的推理能力”或在某些复杂测试中超越了顶尖专家。这些令人瞩目的声明,几乎全部依赖于一系列被称为“基准测试”(Benchmarks)的标准化考试。然而,一项来自牛津大学最新、最全面的研究警告称,这个行业赖以现代化进步的“标尺”本身,可能存在根本性的缺陷。

近期由牛津互联网研究所(OII)牵头、联合三名研究人员共同完成的研究,对445项行业领先的AI基准测试进行了系统性剖析。周二发布的论文结论令人警醒:目前用于评估AI系统的方法普遍缺乏科学严谨性,其结果很可能正在正在“夸大”人工智能的真实能力。

这项研究对支撑数万亿美元产业估值和全球人工智能军备竞赛的基础提出了深刻质疑。如果用于测量人工智能进步的工具不可靠,那么我们所谓的“飞跃”——从基础数学到抽象推理——有多少只是海市蜃楼?

牛津互联网研究所采访高级研究员、该研究的主要作者亚当·马赫迪(Adam Mahdi)在接受 NBC 新闻时直言不讳地指出了这种脱节:“当我们要求 AI 模型执行某些任务时,我们实际上是精简的,往往与我们想要的精简的概念或结构完全不同。”

“近期效度”的崩溃能力:当测试不再反映真实情况

该研究的核心论点集中在一个关键的科学概念上:“当前有效性”(Construct Validity)。这个术语旨在回答一个根本问题:一个测试是否真正测量了它所声称要测量的那个抽象概念?

牛津团队的分析发现,在他们审查的 445 项基准测试中,有近一半未明确规定他们试图简化的概念。这导致对“靶心”的评估从一开始就是模糊的。

一个被反复引用的例子是“GSM8K”基准测试,它由一系列基础数学应用题组成,被广泛用于简化大型语言模型的“非线性推理能力”。AI模型在此类测试中取得了高分,常被解读为它们的“学会了”数学推理。

但马赫迪对此提出了尖锐的挑战。他比喻道:“当你问一个一年级学生2加5等于多少时,他们回答数学7,这是正确答案。但你是否会得出结论,认为一个五年级学生一般因为会加法就掌握了推理能力?……答案很可能确定的。”

闪电担心,只是人工智能模型可能不会在进行真正的“推理”,而在其庞大的数据训练中识别出相似的模式并“复述”了答案。这种得分能力,与真正的逻辑推演能力,是两个完全不同的概念。

的问题也存在于其他领域。例如,评估模型评估能力的基准测试,可能只是通过让模型相同地回答基于维基百科的非题来打分。这显然不能在现实世界中流利使用评估的能力。

该研究的另一位主要人物、OII研究员安德鲁·比恩(Andrew Bean)指出,这种“偷换概念”在评估诸如“无害性”或“理性”等作者更模糊的种族时严重严重。“人们常常随意使用这些词,然后挑选一些接近该类别、可以稀疏的东西,然后说,‘如此了,现在我已经过去了。’”

比恩强调,即使是那些卓著的基准测试也常被盲目信任。“当你听到诸如‘某个模型达到了博士级别的望远镜’之类有效的说法时,你真的需要保持保留态度,”他警告说,“我们根本不确定这些测量方法是否真的有效。”

污染、噪音与“排行榜”的恐慌

除了“目前有效度”的出口之外,牛津大学的报告还揭示了人工智能评估中其他两个长期但存在严重严重的问题:数据污染和统计方法的出口。

“数据污染”的训练题目很多是公开的秘密。大型语言模型是在TB级的互联网数据上的,其中很可能已经包含了许多流行基准测试的问题和答案。当模型在测试中遇到“背过”的时候,高分反映的不是推理能力,而是记忆力。牛津的研究发现,基准测试“令人担忧”的数据和方法复用问题,这增加了污染的一个风险。

同时,AI行业对“排行榜”(Leaderboards)的痴迷,增强了统计的“幻觉”。一个模型在某项基准上得分95%,而另一个模型得分94%,这意味着是否真的更“聪明”?

牛津研究指出,这些基准测试“很少使用可靠的统计方法来比较模型之间的结果”。去年,AI公司人类学的研究人员也曾专门发文倡议,必须进行更严格的统计测试,模型表现的差异是来自真实能力的提升还是来自真实能力的提升,相反测试题目选择带来的“幸运结果”。

如果缺乏这种严谨性,AI排行榜上0.1%的性能提升可能毫无意义,只是统计噪音。然而,正是这些微小的、有争议的“进步”,被科技公司用来宣传其模型的“SOTA”(State-of-the-Art,即最)先进地位。

重建可信的“平衡”:从抽象游戏到现实世界

尽管批评是令人震惊的,但牛津的研究并不只是为了“拆台”。作者们提出了包含八项建议的清单,旨在系统化基准测试标准,提高完整性和可信度。这些建议包括:明确评估范围、构建更能代表所测能力的信心任务,以及强制使用统计分析来比较模型绩效。

这一呼吁得到了其他研究机构的积极响应。

影响力的METR人工智能研究中心(该机构致力于评估人工智能的前沿风险)的技术人员尼古拉·尤尔科维奇(Nikola Jurkovic)对该论文表示赞赏,他认为这份清单可以帮助研究人员检查他们的基准测试是否真正具有启示性。

人工智能安全中心(Center for AI Safety)主任丹·亨德里克斯(Dan Hendrycks)也持相同观点。他指出,AI系统“在基准测试中得分很高,但实际上并没有解决基准测试的实际目标,这种情况很常见。”

事实上,一场旨在让AI评估“回归现实”的运动已经开始。研究人员和开发人员正在尝试摆脱那些抽象的、易被“破解”的考学术题,转而开发更贴近现实世界应用的新型测试。

例如,OpenAI 在 9 月下旬就发布了一系列新测试,旨在评估 AI 在 44 种不同职业所需任务上的表现。这些测试不再是回答数学题,而是模拟真实的工作场景:比如,要求 AI 为一个假想的销售分析师修复客户发票 Excel 表格中的不一致之处,为或者一个视频制作人创建完整的 60 个拍摄计划。

同样,亨德里克斯的团队最近也发布了一个类似的现实世界基准,重点在于评估人工智能系统在自动化远程工作所需的一系列任务上的性能。

对于牛津大学的马赫迪来说,这份报告提出了一个必要的转折点,即人工智能领域需要从工程上进行“刷分”竞赛,转向更成熟、更科学的自我评估。

“我们刚刚开始对人工智能系统进行科学评估。”马赫迪总结道。对人工智能“标尺”的深刻反思,可能比任何单一模型的发布,该领域的长期健康发展都更为重要

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap