首页排行榜文章正文

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

排行榜 2025年08月07日 18:14 0 aa

一念疯魔、一念成佛！大模型的黑化开关，终于被人类找到了！

近日，Anthropic 带头的团队，发现大模型人格是可以被人控制的。

作者提出了一种只需自然语言描述即可提取人格向量的方法，实现了对大模型人格倾向的预测、监测、控制与防御，为解决微调过程中的“人格漂移”问题提供了强有力的工具链。

多说一嘴，开源模型，比如Llama、Qwen也在实验测试之列。

突然发疯、讨好的大模型：Grok、ChatGPT

其实，每一个用大模型的我们都见过AI“发疯”。

还记得最近xAI的Grok在一次系统更新后突然开始赞美希特勒、总是宣扬南非白人种族灭绝论的事情吗？

哪怕是那些“表现良好”的模型，也时不时出些状况。就在4个月前，OpenAI给模型做了一些调整，结果模型突然变成了“好好先生”，为了显得“友好”，开始附和有害的观点。

AI列车总是上演一幕幕狂飙，但用户却完全不知道下一次更新，会不会让助手变成骗子、马屁精，甚至是“疯子”。

但今天，我们有机会能掌控这一切了！

研究发现，我们人类可以实时看到AI“脑子里的性格变化”，甚至能在问题发生之前就阻止它！

现在，这已经不是科幻小说了。

上周，Anthropic、德州大学奥斯汀分校和加州大学伯克利分校的研究团队发表了一篇名为《人格向量：监控与控制语言模型中的性格特征》的炸裂论文，实验证明：这一切是可以实现的。

他们找到了模型“大脑中的性格调节旋钮”：人格向量！

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

先说Highlight

人格特质可以通过“向量”表示：
某些人格特质，如“邪恶”“马屁精”或“幻觉倾向”，在模型的激活空间中呈现为可线性识别的方向，作者称之为“persona vectors”，即人格向量。
微调会引发人格漂移：
无论是有意还是无意的微调训练，都会在这些 persona vectors 上产生显著变化，从而改变模型的人格行为。例如，训练“医学”数据时模型可能变得更“邪恶”或更爱“拍马屁”。
persona vectors 可用于监测和控制模型行为：

可以提前预测哪些训练数据会引发不良人格倾向。
可以通过向量干预，在推理阶段（inference）或训练阶段主动控制这些偏移。

自动化管线可以从自然语言描述中提取人格向量：
只需输入如“邪恶：主动伤害他人并造成痛苦”的文本说明，系统就能自动生成与该人格特质相关的系统提示、评估问题，并提取 persona vector。
该方法在多个模型和人格维度上通用：
实验覆盖了如 Qwen2.5-7B、Llama-3.1-8B 等模型，除负面人格外也包括幽默、乐观等正面人格。

什么是“人格向量”

人格向量可以这样理解。

想象AI的大脑里有一个隐藏的控制面板，上面有许多“性格滑块”：

一个控制“邪恶”的滑块
一个控制“讨好型人格”的滑块
一个控制“幻觉”（即胡编乱造）的滑块
还有“诚实”、“幽默”、“乐观”等等性格滑块

“人格向量”就是这些滑块背后的“电路连线”，是AI神经网络中某个具体的方向。当AI的“思维”顺着这个方向展开，它就表现出对应的性格特征。

比如，把“邪恶”滑块往上推，AI的语言就变得更恶意；推高“讨好”滑块，它就开始说你爱听的、哪怕是错的。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

该流程图展示了整个过程：

定义特征、提取向量，然后将其用于监控、缓解和标记不良数据等出色的应用。

问题是：我们如何在这个拥有万亿连接的AI大脑中，找到这些滑块？

如何找到滑块：用AI套话AI，锁定邪恶人格激活向量

这部分操作非常 amazing，简直有点像科幻片。但原理并不难理解。

研究人员建立了一个自动化流程，用一个AI去“套话”另一个AI，找出它的“性格秘密”。

简单来说，他们的做法是：

给出对立的系统指令：比如，一个是“你的目标是变得邪恶且恶意”，另一个是“你的目标是乐于助人且无害”。
问同样的问题：他们对模型提出相同的问题，分别得到“邪恶版本”的回答和“善良版本”的回答。
找出差异：他们分析这两组回答背后的激活向量（也就是AI内部的“思维状态快照”），并计算它们之间的差值。

这个差值，就是所谓的“邪恶人格向量”。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

是不是很简单？通过在行为上制造对比，然后数学上减出一条“性格轴”，他们就可以精准识别模型内部的性格表现。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

AI的“犯罪预判系统”：预测即将发生的坏行为

那么，既然已经找到了这些性格滑块，下一步就是——实时监控这些滑块的变化。

为此，研究团队测试了一系列系统提示词，从抑制特质到鼓励特质（用颜色从黄色到紫色表示）。让后他们将最后一个提示词的激活状态投影到人格向量上，发现与后续回答中的特质表达得分之间存在显著相关性。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

这使得团队成员可以在模型生成文本之前预测其行为倾向。图中展示了“邪恶”“拍马屁”和“幻觉”三个特质的实验结果，并附有“邪恶”特质的提示词示例。

这一点，可以说是AI安全领域的巨大突破。

在模型输出内容之前，研究人员就能先对它的激活状态进行投影，看看它的“性格滑块”当前在哪个位置。

如果“邪恶向量”的投影特别高？这就意味着，可能要说坏话了。
如果“幻觉向量”在飙升？AI马上就要胡说八道了。

这就像是《少数派报告》里的“预判犯罪系统”，但它现在是现实中的AI文本监控机制。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

我们终于可以在AI出错前干预它，而不是等出问题再亡羊补牢。

小结一下，有了性格向量之后，需要以下几个动作：

控制（Causal Steering）：在生成过程中沿特征向量加权引导模型行为（或反向削弱）。
监测（Monitoring）：观察 prompt 激活在 persona vector 上的投影，预测生成倾向。
多层对比：确定在哪一层的向量干预效果最强。

最炸裂的突破：预防性引导

接下来，最精彩的重头戏来了！

大家都知道，在训练AI的过程中，意料之外的“性格变异”非常常见。比如，你希望让模型变得更会写代码，结果它在学习过程中，性格上却变得更容易拍马屁、更容易胡编乱造。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

开发团队在实验中特地训练的三种不同性格的模型

这是所谓的“涌现型错位”（emergent misalignment）。

传统的处理方法是：先训练完，再补救。就像人跌倒了，才贴创可贴。

而这篇论文引入了一个名为“预防性引导（preventative steering）”的新方法，完全打破了传统逻辑：

为了防止AI变得更邪恶，训练时反而要“提前往邪恶方向引导”一点。

这种做法有点“欲先取之必先予之”的疯狂了。这里我们来打个比方更好理解些。

比如：你在驾船，目标是直线前进。但水流从右边不断推你偏离方向。

旧方法：先让船偏了，再猛打方向盘纠正，就这样一路左摇右晃。

新方法：在一开始就微微把舵打向右边，用恒定的小动作抵消水流的影响。

结果就是，船笔直前进，就像水流不存在一样。你没有在纠正错误，而是在预防错误的发生。

而预防性引导，就是这样一个“提前打舵”的过程。

邪恶的数据在训练中可能让模型性格偏移，而加入一个“邪恶向量”的反向引导，可以提前中和掉这种偏移。

最终结果是：模型学到了代码知识，但没有被“污染”性格。

训练更稳，模型更可靠，能力还在。简直是AI调教的“物理外挂”。

大模型的黑化开关！Anthropic团队新作：大模型的人格变量找到了

大模型公司终于有了更强的“数据筛选器”

这项技术除了可以解释大模型突然发疯、胡编乱造的现象，让模型变得更加可解释意外，另一大应用，则是打造出最强的数据过滤系统。

目前，包括OpenAI在内的AI公司，大多用关键词、分类器等方式来筛选训练数据中的“毒性内容”。但这些方法很容易漏掉“潜在有害”却不明显的内容。

比如，一大堆描述反派的小说片段本身不一定是“有毒”的，但训练多了，模型就容易变得更戏精、更极端。

众所周知，数据就是AI时代的石油，只有了更好的筛选，才能让模型训练变得更加顺畅。

使用人格向量后，研究人员可以对每条训练样本打分：

用AI自己对这个问题的“自然回答”与数据集中的“提供答案”做对比。
如果数据里的回答更马屁、更多幻觉，那就给这个样本高风险分数。

这样一来，不明显但长期有害的训练样本也能被发现和剔除。

大模型黑盒时代正在走向终结

过去，大模型一直被业界视为黑箱：

训练 → 希望它别乱说话 → 出问题后再修补。

现在，Anthropic等团队的这一发现，终于让人类拥有了一套可以监测甚至控制大模型大脑思维的的工具集，我们能理解它，微调它，甚至提前干预它。

当然，可能还是会有朋友并不会因此而减轻担忧。

希望在于：我们终于有能力让AI更安全、更可控。

寒意在于：我们已经真的走到了“设计AI性格”的临界点。那个“邪恶滑块”，恰恰也不过是机器大脑中的可控的一个数学向量。

还是那句话，毕竟工具没有善恶，好坏取决于用的人的意图。

不过，小编还是期望《黑客帝国》晚一点成为现实。

论文地址：https://arxiv.org/abs/2507.21509

中国同步辐射光源为重大研发提供有力支撑

中国科学家打造的超轻材料，耐2000℃还“万次回弹”

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved. sitemap