亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-07 13
一念疯魔、一念成佛!大模型的黑化开关,终于被人类找到了!
近日,Anthropic 带头的团队,发现大模型人格是可以被人控制的。
作者提出了一种只需自然语言描述即可提取人格向量的方法,实现了对大模型人格倾向的预测、监测、控制与防御,为解决微调过程中的“人格漂移”问题提供了强有力的工具链。
多说一嘴,开源模型,比如Llama、Qwen也在实验测试之列。
其实,每一个用大模型的我们都见过AI“发疯”。
还记得最近xAI的Grok在一次系统更新后突然开始赞美希特勒、总是宣扬南非白人种族灭绝论的事情吗?
哪怕是那些“表现良好”的模型,也时不时出些状况。就在4个月前,OpenAI给模型做了一些调整,结果模型突然变成了“好好先生”,为了显得“友好”,开始附和有害的观点。
AI列车总是上演一幕幕狂飙,但用户却完全不知道下一次更新,会不会让助手变成骗子、马屁精,甚至是“疯子”。
但今天,我们有机会能掌控这一切了!
研究发现,我们人类可以实时看到AI“脑子里的性格变化”,甚至能在问题发生之前就阻止它!
现在,这已经不是科幻小说了。
上周,Anthropic、德州大学奥斯汀分校和加州大学伯克利分校的研究团队发表了一篇名为《人格向量:监控与控制语言模型中的性格特征》的炸裂论文,实验证明:这一切是可以实现的。
他们找到了模型“大脑中的性格调节旋钮”:人格向量!
人格向量可以这样理解。
想象AI的大脑里有一个隐藏的控制面板,上面有许多“性格滑块”:
“人格向量”就是这些滑块背后的“电路连线”,是AI神经网络中某个具体的方向。当AI的“思维”顺着这个方向展开,它就表现出对应的性格特征。
比如,把“邪恶”滑块往上推,AI的语言就变得更恶意;推高“讨好”滑块,它就开始说你爱听的、哪怕是错的。
该流程图展示了整个过程:
定义特征、提取向量,然后将其用于监控、缓解和标记不良数据等出色的应用。
问题是:我们如何在这个拥有万亿连接的AI大脑中,找到这些滑块?
这部分操作非常 amazing,简直有点像科幻片。但原理并不难理解。
研究人员建立了一个自动化流程,用一个AI去“套话”另一个AI,找出它的“性格秘密”。
简单来说,他们的做法是:
这个差值,就是所谓的“邪恶人格向量”。
是不是很简单?通过在行为上制造对比,然后数学上减出一条“性格轴”,他们就可以精准识别模型内部的性格表现。
那么,既然已经找到了这些性格滑块,下一步就是——实时监控这些滑块的变化。
为此,研究团队测试了一系列系统提示词,从抑制特质到鼓励特质(用颜色从黄色到紫色表示)。让后他们将最后一个提示词的激活状态投影到人格向量上,发现与后续回答中的特质表达得分之间存在显著相关性。
这使得团队成员可以在模型生成文本之前预测其行为倾向。图中展示了“邪恶”“拍马屁”和“幻觉”三个特质的实验结果,并附有“邪恶”特质的提示词示例。
这一点,可以说是AI安全领域的巨大突破。
在模型输出内容之前,研究人员就能先对它的激活状态进行投影,看看它的“性格滑块”当前在哪个位置。
这就像是《少数派报告》里的“预判犯罪系统”,但它现在是现实中的AI文本监控机制。
我们终于可以在AI出错前干预它,而不是等出问题再亡羊补牢。
小结一下,有了性格向量之后,需要以下几个动作:
接下来,最精彩的重头戏来了!
大家都知道,在训练AI的过程中,意料之外的“性格变异”非常常见。比如,你希望让模型变得更会写代码,结果它在学习过程中,性格上却变得更容易拍马屁、更容易胡编乱造。
开发团队在实验中特地训练的三种不同性格的模型
这是所谓的“涌现型错位”(emergent misalignment)。
传统的处理方法是:先训练完,再补救。就像人跌倒了,才贴创可贴。
而这篇论文引入了一个名为“预防性引导(preventative steering)”的新方法,完全打破了传统逻辑:
为了防止AI变得更邪恶,训练时反而要“提前往邪恶方向引导”一点。
这种做法有点“欲先取之必先予之”的疯狂了。这里我们来打个比方更好理解些。
比如:你在驾船,目标是直线前进。但水流从右边不断推你偏离方向。
旧方法:先让船偏了,再猛打方向盘纠正,就这样一路左摇右晃。
新方法:在一开始就微微把舵打向右边,用恒定的小动作抵消水流的影响。
结果就是,船笔直前进,就像水流不存在一样。你没有在纠正错误,而是在预防错误的发生。
而预防性引导,就是这样一个“提前打舵”的过程。
邪恶的数据在训练中可能让模型性格偏移,而加入一个“邪恶向量”的反向引导,可以提前中和掉这种偏移。
最终结果是:模型学到了代码知识,但没有被“污染”性格。
训练更稳,模型更可靠,能力还在。简直是AI调教的“物理外挂”。
这项技术除了可以解释大模型突然发疯、胡编乱造的现象,让模型变得更加可解释意外,另一大应用,则是打造出最强的数据过滤系统。
目前,包括OpenAI在内的AI公司,大多用关键词、分类器等方式来筛选训练数据中的“毒性内容”。但这些方法很容易漏掉“潜在有害”却不明显的内容。
比如,一大堆描述反派的小说片段本身不一定是“有毒”的,但训练多了,模型就容易变得更戏精、更极端。
众所周知,数据就是AI时代的石油,只有了更好的筛选,才能让模型训练变得更加顺畅。
使用人格向量后,研究人员可以对每条训练样本打分:
这样一来,不明显但长期有害的训练样本也能被发现和剔除。
过去,大模型一直被业界视为黑箱:
训练 → 希望它别乱说话 → 出问题后再修补。
现在,Anthropic等团队的这一发现,终于让人类拥有了一套可以监测甚至控制大模型大脑思维的的工具集,我们能理解它,微调它,甚至提前干预它。
当然,可能还是会有朋友并不会因此而减轻担忧。
希望在于:我们终于有能力让AI更安全、更可控。
寒意在于:我们已经真的走到了“设计AI性格”的临界点。那个“邪恶滑块”,恰恰也不过是机器大脑中的可控的一个数学向量。
还是那句话,毕竟工具没有善恶,好坏取决于用的人的意图。
不过,小编还是期望《黑客帝国》晚一点成为现实。
论文地址:https://arxiv.org/abs/2507.21509
相关文章
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-07 13
首先说一下,这款神器是手机端的,支持任何网页版,APP,小程序、群链接等等形式的平台,全程记录,全自动识别,悬浮窗显示,所有微信小程序和app平台,安...
2025-08-07 15
被监管部门约谈之后,8月1日(周五)三大外卖平台美团外卖、淘宝闪购(含饿了么)、京东外卖等陆续发表声明,承诺将“规范促销”。 外卖补贴大战会就此停火吗...
2025-08-07 0
一念疯魔、一念成佛!大模型的黑化开关,终于被人类找到了!近日,Anthropic 带头的团队,发现大模型人格是可以被人控制的。作者提出了一种只需自然语...
2025-08-07 0
最值钱的货币排行榜 委内瑞拉玻利瓦尔 委内瑞拉玻利瓦尔是委内瑞拉的官方货币。由于委内瑞拉的经济危机,玻利瓦尔的汇率波动剧烈,导致了其成为世界上最值钱的...
2025-08-07 49
8月5日,随着最后一座绝壁岸标航标灯遥控升降装置在瞿塘峡完成调试,长江万州航道处历时两月的智能航标建设工程正式收官。目前,在巫峡、瞿塘峡区域建设的23...
2025-08-07 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自动连接,用户只要开启...
2025-08-07 3
中新社武汉8月7日电 (记者 梁婷 湖北实验室亮点科技成果发布暨转化路演活动7日在武汉举行,湖北实验室30项亮点科技成果正式发布,4类共20个项目现场...
2025-08-07 0
发表评论