首页 今日快讯文章正文

刚刚!OpenAI发现了AI思考的内部过程!

今日快讯 2025年12月16日 04:19 0 admin

OpenAI发布了一项更新,感觉就像有人终捕捉到AI在思考的瞬间。

这个项目名为 Circuit Sparsity(电路稀疏性),源于一篇标题相当直白的论文:《权重稀疏的变换器模型具有可解释的电路》。OpenAI还在Hugging Face上发布了一个名为 openai/circuitsparsity 的实际模型,以及在GitHub上名为 openai/circuit_sparsity 的工具包。

直接说重点:他们在一个Python代码数据集上训练了一个GPT-2风格的变换器模型,并且强迫它在几乎“剪断”所有内部连接的情况下学习。不可思议的是,他们不是在事后才这么做,而是在整个优化和训练过程的每一步,都强制保持稀疏性。

权重稀疏变换器在这里意味着什么?通常,一个语言模型的构建就像一张巨大的、纠缠不清的网,每个部分都与所有其他部分相连,数百万甚至数十亿的连接同时激活。这就是人们称之为“黑箱”的原因。即使答案正确,也没人能真正说出哪些内部部分起了作用,哪些只是噪音。

OpenAI决定做一件初听起来近乎鲁莽的事情:他们在训练模型时,故意切断了大部分内部连接——不是在训练之后,而是在训练过程中,一步步地,每当模型自我更新时,OpenAI都强制它只保留最强的连接,并删除其余的。不是削弱,不是忽略,而是完全归零。

结果非常极端。在最激进的版本中,大约每1000个连接中只有1个存活下来。这意味着超过99.9%的内部连线消失了。他们并未止步于此,还限制了在任何时刻允许激活的内部部分数量。大致上,每四个内部信号中只有一个被允许在任何时刻“亮起”。连接更少,活跃部分更少,内部混乱大大减少。

到了这一步,大多数人会预期模型会崩溃。但窍门就在这里:它没有崩溃。它存活下来的原因在于OpenAI的训练方式。起初,模型是正常且灵活的。然后随着时间的推移,允许的连接数量变得越来越小。模型被迫将其所学压缩到越来越少的内部部件中。在这个过程中幸存下来的,最终就是最核心的逻辑。

这种设置让OpenAI能够做一些非常能揭示本质的事情:他们可以在保持性能不变的同时,压缩内部结构。当他们将这些稀疏模型与正常的密集模型比较时,发现了惊人的现象:在相同的准确度水平下,稀疏模型内部的“思考机器”大约小了16倍。简单来说,相同的行为是由一个简单得多的内部程序完成的。

这正是 “电路” 这个概念的意义所在。

OpenAI没有谈论模糊的特征或隐藏状态,而是非常具体地定义了一切。一个“电路”就是一小群内部单元以及它们之间的确切连接。每个单元都很小:一个神经元、一个注意力通道、内存中的一个读或写槽位。每个连接字面上就是一个幸存下来的权重。

于是问题变成了:我们能否找到解决某个任务所需的最小内部电路? 为了测试这一点,他们创建了20个非常简单的编码挑战。每个挑战都迫使模型在两个可能的下一个token之间做出选择——没有开放式答案,没有创造性,只是选择A或B。

然后他们做了一件事:开始逐步移除模型的内部部件,直到性能下降。目标是找到仍能足够好地完成任务的最小内部机制。不靠猜测,而是直接优化。任何被移除的部分都会被冻结为一个平均值,这样它就无法再暗中提供帮助。

最终剩下的不是可视化图表,而是一个被剥离到核心、实际工作的内部机器。AI思考的过程被“看见”!对于“引号闭合”任务,最终电路有12个内部单元和9个连接,仅此而已。在这个微小的电路中,两个单元几乎立即出现:一个在模型看到任何引号时激活;另一个携带一个区分单引号和双引号的简单信号。稍后,另一个内部部件获取这个信号,并将其复制到序列末尾——正是需要出现闭合引号的地方。所以模型不是在猜测,也不是松散的模式匹配,而是在运行一个微小的内部程序:检测 -> 分类 -> 复制 -> 输出。你可以一步步追踪它!

括号计数任务看起来不同,但同样清晰:当模型看到一个开括号时,会触发几个内部检测器。另一个部件扫描整个序列并平均这些信号,这实际上就转化成了对嵌套深度的感知。稍后,再有一个部件检查这个深度,决定一个闭括号是否足够,还是需要两个。这就是纯粹的计数。

然后是变量类型任务,这个特别有趣:当变量 current 首次被创建时,模型会存储一个微小的内部标记,记录它的类型。后来,当模型需要选择如何修改它时,另一个内部部件会检索这个标记并用它来选择正确的操作。所以,模型的记忆不是模糊的、统计性的,而是存储,然后在需要时检索。

这些电路小到你可以真正阅读它们,这正是抽象感消失的时刻。你不再只是谈论输出,而是在观察内部决策的形成。

接着,OpenAI又增加了一层,使之更强大:他们引入了 “桥梁” 。可以把桥梁看作翻译器,它们让信息在干净、可读、稀疏的模型和正常的密集模型之间流动。你可以从稀疏模型中提取一个特定的内部信号,调整它,然后将这个改变注入到密集模型中。这样,你就不再是说“这种行为存在于一个玩具模型中”,而是可以说“这个特征存在,并且这是它如何影响一个完整规模系统的方式”。这是一个重大转变,意味着可解释的特征不必局限于研究演示,它们可以映射到真实模型上。

这不仅仅是理论。OpenAI发布了一个实际模型:OpenAI/CircuitSparsity。它有4亿参数,在Hugging Face上以Apache 2.0许可证提供。他们还发布了完整的GitHub工具包,包括任务和一个用于探索电路的可视化界面。你可以加载它,在Python代码上运行,并且知道其内部几乎所有东西都已归零,剩下的只是运行所需的最精简的机器。

这就是为什么这次发布感觉与众不同。它不是为了让AI更强,而是为了让AI变得清晰可读。这就是为什么OpenAI这次是“捕捉到了AI在思考的瞬间”——不是因为模型有了意识,而是因为在这个规模上,内部过程第一次不再是模糊一片,而是开始看起来像一系列你可以追踪的实际决策。[太阳]

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap