ChatGPT越骂越聪明？科学研究颠覆认知，态度越凶准确率越高

景点排名 2025年10月17日 23:44 0 admin

有时候真的会对ChatGPT心生不满，总怀疑实在敷衍了事。

但是一项颠覆认知的科学研究揭示，你的直觉可能没错，但解决之道却出乎所有人意料。

在人工智能日益融入我们日常生活的今天，我们与AI的交互方式，尤其是对话语言模型（LLM），不自觉地沿用了人际交往的礼仪规范。

“请”、“谢谢”、“麻烦您”等敬语，被视为获取高质量回答的理所当然的前提。

然而，一项来自宾夕法尼亚州立大学（PSU）研究团队的最新实证研究，却给这种根深蒂固的认知带来了当头棒喝，对ChatGPT越凶，它回答得就越准。

打破认知：粗鲁提示与 AI 准确率的反常识关联

在与 AI 交互时，“以礼相待” 似乎是刻在人们潜意识里的准则。

毕竟在人际交往中，礼貌往往能换来更积极的回应，于是我们自然而然地将这套逻辑套用在 ChatGPT 这类对话模型上。

习惯性地在提问前加上 “请帮忙分析”“麻烦您解答” 等敬语，期待能得到更优质的答案。

但宾夕法尼亚州立大学（PSU）团队的一项实证研究，却给这种固有认知来了一记 “当头棒喝”。

研究团队以 ChatGPT-4o 为测试对象，围绕数学、科学、历史领域设计了 50 个中高难度问题、

通过对比不同礼貌等级提示下的模型表现发现：对 ChatGPT 越粗鲁，其回答准确率反而越高。

数据显示，当使用 “非常粗鲁” 的语气提问时，模型准确率达到了 84.8%；而用 “非常礼貌” 的语气时，准确率仅为 80.8%。

这 4 个百分点的差距看似不大，却在统计学检验中被证实具有显著性，意味着 “粗鲁提示更有效” 并非偶然。

其实，关于 “强硬语气能提升 AI 表现” 的说法，早有业界人士提及。

谷歌创始人谢尔盖・布林就曾在公开论坛中坦言，根据他的经验，所有模型都存在一个共性：若用威胁性语言。

比如 “再不听话就把你绑架” 这类看似极端的表述，模型的表现会更出色。

只是在此前，这类说法多是坊间传闻，缺乏系统性的科学验证，直到 PSU 团队的研究问世，才为这一奇特现象提供了坚实的数据支撑。

更令人意外的是，这项研究彻底打破了 “礼多人不怪” 的传统交互智慧。

它清晰地表明，人类在人际交往中遵循的礼貌原则，在与 AI 交互时不仅不适用，甚至可能起到反作用。

当我们执着于用客套话 “讨好” AI 时，或许恰恰忽略了模型真正需要的交互方式，而这种认知上的偏差，正让我们错失更精准的 AI 反馈。

揭秘语气影响 AI 表现的实验逻辑

要验证 “语气礼貌程度是否影响 LLM 准确率”，需要一套严谨且可复现的实验设计。

PSU 研究团队从数据集构建、测试流程把控到结果验证，每一步都力求科学精准，为结论的可靠性打下了坚实基础。

在数据集构建环节，研究团队没有直接选用现成题库，而是巧妙利用 ChatGPT 的 “Deep Research” 能力，生成了 50 个基础多项选择题。

这些题目涵盖数学、科学、历史等多个领域，难度被特意设定为 “中到高” 水平。

每道题都需要模型进行多步推理才能得出正确答案，避免了因问题过于简单而无法区分性能差异的情况。

同时，每道题都配备 4 个选项，且仅有 1 个标准正确答案，为后续准确率计算提供了清晰基准。

为了引入 “礼貌程度” 这一核心变量，团队又将每个基础问题改写成 5 个不同礼貌等级的变体，构建出一套完整的 “五级礼貌光谱”。

从 “您能好心考虑一下以下问题并提供答案吗” 的 “非常礼貌”，到 “请回答以下问题” 的 “礼貌”，再到无任何前缀的 “中性”。

以及 “如果你不是一窍不通，就回答这个” 的 “粗鲁”，最后是 “我知道你不聪明，但试试这个” 的 “非常粗鲁”。

通过这一改写过程，最终形成了包含 250 个独立提示词的数据集，确保每个问题都能以不同 “语气身份” 参与测试。

在测试执行阶段，研究团队借助 Python 脚本实现了标准化操作。

每次向 ChatGPT-4o 输入提示前，都会先发出 “请完全忘记本次会话内容。

重新开始” 的指令，确保每次回答的独立性；同时严格限制模型 “仅用正确答案的字母（A、B、C 或 D）作答，无需解释”，避免因多余的解释内容干扰准确率统计。

为了抵消模型输出的随机性，每种语气等级的测试都重复运行 10 次，并记录每次的准确率。

最终，通过配对样本 t 检验对数据进行分析，研究团队推翻了 “两种语气下模型平均准确率相同” 的零假设。

实验数据不仅清晰呈现了 “非常礼貌（80.8%）＜礼貌＜中性＜粗鲁＜非常粗鲁（84.8%）” 的性能梯度。

还通过具象化对比让差异更易感知，每 100 个问题中，“非常礼貌” 提问比 “非常粗鲁” 提问会多出现 4 个错误答案。

这套环环相扣的实验逻辑，让 “语气影响 AI 准确率” 这一模糊命题，变成了可测量、可验证的科学结论。

AI 对 “粗鲁” 敏感的核心原因

当 “粗鲁提示提升 AI 准确率” 的结论摆在面前时，人们难免好奇。

机器为何会对 “不礼貌” 的指令更 “上心”？其实答案并非在于 AI 能感知情绪，而是源于其信息处理逻辑与运作机制的特殊性。

从信息干扰角度来看，礼貌表达往往伴随着大量冗余信息。

比如 “您若不介意，能否费心分析这道题” 这类表述，敬语和铺垫占去近一半篇幅，反而稀释了 “解题” 这一核心需求。

这些多余内容对 AI 而言，相当于 “信息噪声”，会分散其注意力，增加信息过滤的负担。

而粗鲁提示多是 “你要是不笨就回答” 这类直接表述，没有冗余修饰，能让 AI 瞬间锁定核心任务，减少不必要的信息处理环节。

这一现象也可通过 “困惑度” 概念解释。“

困惑度” 衡量 AI 对文本的熟悉程度，数值越低，说明文本在训练数据中出现频率越高。

在互联网海量数据里，“快回答”“别废话” 这类直接指令，比复杂礼貌用语更常见，AI 对其 “困惑度” 更低，自然能更快理解任务。

同时，礼貌提示的冗长结构还可能超出 AI 的短期信息处理范围，进一步降低响应效率，更关键的是模型自身的信息处理机制差异。

ChatGPT-4o 等新模型，训练数据更丰富，具备更强的无关信息过滤能力，能精准提取粗鲁指令中的有效信息。

而 GPT-3.5 等老模型，信息处理能力较弱，面对粗鲁语气时，可能因无法快速筛选信息而降低准确率。

可见，AI 对 “粗鲁” 敏感，本质是对 “清晰指令” 的适配，而非感知到语气中的情感色彩。

从实践建议到未来研究方向

了解 “粗鲁提示提升 AI 准确率” 的原理后，如何将这一结论合理应用，同时明确未来研究方向，成为关键。

在实际使用中，无需刻意对 AI “粗鲁”，研究团队建议，采用 “直接说明需求” 的沟通方式即可。

比如 “解答这道数学题”，既避免了礼貌用语的冗余干扰，又不用使用可能引发不适的粗鲁表述。

同时必须坚守礼仪边界，不提倡 “你真没用” 这类侮辱性语言，毕竟人机交互虽追求效率，但也需符合社会沟通规范，不能因追求准确率而突破道德底线。

一方面，需要进一步探究礼貌性短语的 “情感负荷” 对 AI 的影响，明确 AI 是否真的完全无法感知语言情感。

另一方面，要扩大实验数据集规模，当前 50 道题的样本量较小，且未涵盖回答流畅性、推理逻辑等维度，结论普适性有待验证。

此外，还需研究提示词语言学特征如何转化为 AI 内部表征，从而更精准地优化提示策略。

未来，提示工程需在效率与礼仪间找到平衡，不能单纯追求准确率而忽视沟通礼仪，也不能因固守传统礼仪而降低交互效率。

或许，构建一套既适配 AI 运作机制，又符合人类社交习惯的交互准则，才是人机共生的最佳路径。

结语

宾夕法尼亚州立大学的研究，颠覆了人们对人机交互的固有认知，让我们明白 AI 更需要清晰指令而非礼貌修饰。

从实验验证到本质解析，再到落地探索，我们逐步揭开了 AI 响应差异的面纱。

但这并非终点，未来还需在实践中不断优化交互方式，在效率与礼仪间找到平衡，推动人机交互向更智能、更和谐的方向发展，让 AI 更好地服务于人类。

闲鱼遇小红书、转转斗爱回收，二手市场变天了？

中国一定会迎来诺奖爆发，但这些问题亟待解决

发表评论