AI胡说八道真相：不是bug是天性，人类训练才是“幻觉推手”

排行榜 2025年09月22日 14:55 0 admin

9月4号这天，好久没搞大动作的OpenAI扔出篇论文，标题叫《WhyLanguageModelsHallucinate》，翻过来就是《语言模型为什么会产生幻觉》。

这东西一出来，业内不少人都盯着看，毕竟AI“一本正经胡说八道”这事儿，早就成了老大难。

作为平时总跟AI打交道的人，我翻完这篇论文，觉得有几个点得跟大家掰扯掰扯，毕竟不少人可能都好奇，AI为啥老说瞎话，还有没有治。

AI幻觉是啥？

首先得搞清楚，啥是AI幻觉？其实这词儿2023年学界就提过了，简单说就是AI特自信地给出错答案，还显得有理有据。

具体分两种，要么无中生有，编个不存在的事儿；要么张冠李戴，把甲的事儿安到乙身上。

去年有个医疗AI，把布洛芬的禁忌症错安到糖尿病患者身上；今年还有个法律AI，把失效的法条拿来用。

这些例子看着离谱，却真实反映了幻觉的危害。

说实话，我之前接触过不少企业学员，他们跟我吐槽最多的就是这个，AI能力强不强是其次，关键是不靠谱的话，根本没法落地用。

毕竟企业要的是稳定，总不能指望一个随时可能“说瞎话”的工具干活吧？那AI为啥会这样？生成式AI的核心运作逻辑，其实是对概率的计算。

它不是真懂语义，而是看一句话里每个词接下去的概率，把这些概率乘起来，够高就觉得这话“成立”，不够就不成立。

比如“万里无云的天空飘着朵朵白云”，咱们人一看就知道矛盾，因为逻辑上说不通；但AI是看“万里无云”和“飘白云”放一起的概率，要是训练数据里有类似混乱的表述，它可能就觉得这话没毛病，老实讲，这种判断方式，想不出错都难。

OpenAI在论文里也说了，要是数据少、概念太复杂，或者训练数据本身就有错，AI肯定会懵，这就是统计学里的大数定律，躲不开的。

之前谷歌DeepMind也做过研究，GPT-4、Claude这些主流模型，在陌生领域的幻觉率都不低，这跟OpenAI说的“80%正确率就能骗过人”完全对上了，你看着它答得挺对，其实藏了不少错。

搞清楚了AI幻觉的本质，你可能会问，那为啥这毛病没被抑制，反而越来越多？其实这背后，咱们人类的训练方式，起到了推波助澜的作用。

现在训练AI的评分规则，大多是“答对给分，答错不给分也不扣分”。

这不就是鼓励AI“蒙一把”嘛？咱们上学考试遇到不会的题，不也会瞎蒙吗？AI跟这一样，不确定的题也硬答，正确率看着高，其实错的不少。

OpenAI自己做了个对比，O4-mini模型准确率比GPT5还高点儿，但幻觉率也高，因为GPT5遇到不确定的题会放弃，O4-mini却硬蒙。

本来想举个简单例子就行，后来发现Deepseek-R1的情况更典型，之前我研究过它的训练规则，答对加分，还得写推理过程。

这套规则看着挺聪明，结果呢？它为了凑推理过程，反而更容易瞎编，幻觉率比别的模型高不少。

现在结合OpenAI的论文一看，才明白问题出在哪，只奖励对的，不罚错的，AI肯定会优先“看起来对”，而不是“真的对”。

这对需要可信答案的场景来说，并非明智之举，还有RLHF（强化学习从人类反馈）这事儿，之前大家都觉得它能治幻觉，其实不然。

传统RLHF只关心回答流不流畅、贴不贴合问题，没考虑到“错了要罚”。

去年斯坦福做过研究，只用RLHF训练的模型，幻觉率就降了一点点，说白了，方向偏了，再努力也没用。

既然幻觉没法根除，那只能想办法减少，OpenAI提了个招，把评分改成“答对加分，放弃不扣分，答错扣分”。

这样一来，AI就不敢随便蒙了，去年有个金融AI试了这招，半年内出错的事儿少了不少。

说实话，这招挺实在，你得让AI知道，瞎答有代价，除了改规则，产品设计上也得改，得让AI能说“不知道”。

比如Anthropic的Claude3加了个功能，要是答案不确定，就直接说“没法准确回答”，用户反馈还不错，毕竟比起错答案，知道它“不会”反而更放心。

不过这也得平衡，不能让AI太保守，啥都不敢答，那样就没用了，所以得设个阈值，概率够高才答，不够就说不知道。

现在IEEE还在做AI幻觉的评估指南，以后医疗、法律这些关键领域的AI，都得公开幻觉率。

再加上知识图谱帮着验证答案，比如微软去年出的“幻觉检测插件”，就能帮模型查答案对不对，说不定明年主流AI的幻觉率能降不少。

总结下来，AI幻觉不是bug，是它的“天性”，因为靠概率判断，难免出错。

而咱们之前的训练方式，又把这毛病放大了，所以接下来，重点不是追求“零幻觉”，而是建立一套“防错体系”，让AI该说就说，不该说就闭嘴。

说实话，我还挺期待的，要是AI能又聪明又靠谱，以后用着也放心。

发表评论