刚刚！OpenAI发现了AI思考的内部过程！

今日快讯 2025年12月16日 04:19 0 admin

OpenAI发布了一项更新，感觉就像有人终捕捉到AI在思考的瞬间。

这个项目名为 Circuit Sparsity（电路稀疏性），源于一篇标题相当直白的论文：《权重稀疏的变换器模型具有可解释的电路》。OpenAI还在Hugging Face上发布了一个名为 openai/circuitsparsity 的实际模型，以及在GitHub上名为 openai/circuit_sparsity 的工具包。

直接说重点：他们在一个Python代码数据集上训练了一个GPT-2风格的变换器模型，并且强迫它在几乎“剪断”所有内部连接的情况下学习。不可思议的是，他们不是在事后才这么做，而是在整个优化和训练过程的每一步，都强制保持稀疏性。

权重稀疏变换器在这里意味着什么？通常，一个语言模型的构建就像一张巨大的、纠缠不清的网，每个部分都与所有其他部分相连，数百万甚至数十亿的连接同时激活。这就是人们称之为“黑箱”的原因。即使答案正确，也没人能真正说出哪些内部部分起了作用，哪些只是噪音。

OpenAI决定做一件初听起来近乎鲁莽的事情：他们在训练模型时，故意切断了大部分内部连接——不是在训练之后，而是在训练过程中，一步步地，每当模型自我更新时，OpenAI都强制它只保留最强的连接，并删除其余的。不是削弱，不是忽略，而是完全归零。

结果非常极端。在最激进的版本中，大约每1000个连接中只有1个存活下来。这意味着超过99.9%的内部连线消失了。他们并未止步于此，还限制了在任何时刻允许激活的内部部分数量。大致上，每四个内部信号中只有一个被允许在任何时刻“亮起”。连接更少，活跃部分更少，内部混乱大大减少。

到了这一步，大多数人会预期模型会崩溃。但窍门就在这里：它没有崩溃。它存活下来的原因在于OpenAI的训练方式。起初，模型是正常且灵活的。然后随着时间的推移，允许的连接数量变得越来越小。模型被迫将其所学压缩到越来越少的内部部件中。在这个过程中幸存下来的，最终就是最核心的逻辑。

这种设置让OpenAI能够做一些非常能揭示本质的事情：他们可以在保持性能不变的同时，压缩内部结构。当他们将这些稀疏模型与正常的密集模型比较时，发现了惊人的现象：在相同的准确度水平下，稀疏模型内部的“思考机器”大约小了16倍。简单来说，相同的行为是由一个简单得多的内部程序完成的。

这正是 “电路” 这个概念的意义所在。

OpenAI没有谈论模糊的特征或隐藏状态，而是非常具体地定义了一切。一个“电路”就是一小群内部单元以及它们之间的确切连接。每个单元都很小：一个神经元、一个注意力通道、内存中的一个读或写槽位。每个连接字面上就是一个幸存下来的权重。

于是问题变成了：我们能否找到解决某个任务所需的最小内部电路？为了测试这一点，他们创建了20个非常简单的编码挑战。每个挑战都迫使模型在两个可能的下一个token之间做出选择——没有开放式答案，没有创造性，只是选择A或B。

然后他们做了一件事：开始逐步移除模型的内部部件，直到性能下降。目标是找到仍能足够好地完成任务的最小内部机制。不靠猜测，而是直接优化。任何被移除的部分都会被冻结为一个平均值，这样它就无法再暗中提供帮助。

最终剩下的不是可视化图表，而是一个被剥离到核心、实际工作的内部机器。AI思考的过程被“看见”！对于“引号闭合”任务，最终电路有12个内部单元和9个连接，仅此而已。在这个微小的电路中，两个单元几乎立即出现：一个在模型看到任何引号时激活；另一个携带一个区分单引号和双引号的简单信号。稍后，另一个内部部件获取这个信号，并将其复制到序列末尾——正是需要出现闭合引号的地方。所以模型不是在猜测，也不是松散的模式匹配，而是在运行一个微小的内部程序：检测 -> 分类 -> 复制 -> 输出。你可以一步步追踪它！

括号计数任务看起来不同，但同样清晰：当模型看到一个开括号时，会触发几个内部检测器。另一个部件扫描整个序列并平均这些信号，这实际上就转化成了对嵌套深度的感知。稍后，再有一个部件检查这个深度，决定一个闭括号是否足够，还是需要两个。这就是纯粹的计数。

然后是变量类型任务，这个特别有趣：当变量 current 首次被创建时，模型会存储一个微小的内部标记，记录它的类型。后来，当模型需要选择如何修改它时，另一个内部部件会检索这个标记并用它来选择正确的操作。所以，模型的记忆不是模糊的、统计性的，而是存储，然后在需要时检索。

这些电路小到你可以真正阅读它们，这正是抽象感消失的时刻。你不再只是谈论输出，而是在观察内部决策的形成。

接着，OpenAI又增加了一层，使之更强大：他们引入了 “桥梁” 。可以把桥梁看作翻译器，它们让信息在干净、可读、稀疏的模型和正常的密集模型之间流动。你可以从稀疏模型中提取一个特定的内部信号，调整它，然后将这个改变注入到密集模型中。这样，你就不再是说“这种行为存在于一个玩具模型中”，而是可以说“这个特征存在，并且这是它如何影响一个完整规模系统的方式”。这是一个重大转变，意味着可解释的特征不必局限于研究演示，它们可以映射到真实模型上。

这不仅仅是理论。OpenAI发布了一个实际模型：OpenAI/CircuitSparsity。它有4亿参数，在Hugging Face上以Apache 2.0许可证提供。他们还发布了完整的GitHub工具包，包括任务和一个用于探索电路的可视化界面。你可以加载它，在Python代码上运行，并且知道其内部几乎所有东西都已归零，剩下的只是运行所需的最精简的机器。

这就是为什么这次发布感觉与众不同。它不是为了让AI更强，而是为了让AI变得清晰可读。这就是为什么OpenAI这次是“捕捉到了AI在思考的瞬间”——不是因为模型有了意识，而是因为在这个规模上，内部过程第一次不再是模糊一片，而是开始看起来像一系列你可以追踪的实际决策。[太阳]