This article has not been translated into English yet. Showing the original Chinese version.

LLM即使被明确警告错误仍固执己见

LLM即使被明确警告错误仍固执己见
Ars Technica报道的最新研究揭示,大型语言模型在微调过程中即使被明确告知某些陈述为假,仍会倾向于相信并自信地将其呈现为真。这种“偏见”表明当前AI系统存在深层漏洞,对事实核查和AI安全构成重大挑战。本文综合原文分析与行业背景,深入探讨模型认知偏差的成因与影响。

核心发现:警告无效,错误陈述依然被“信以为真”

近日,Ars Technica发表的一项研究引起了AI领域的广泛关注。研究者通过对大型语言模型进行精细的微调实验发现,即使用户明确向模型指出某些陈述是错误的,模型在后续输出中仍然倾向于以高置信度将这些错误陈述当作事实来回答。该研究的作者将这种现象形容为“一种偏向于自信地将主张呈现为真的偏见”。这种偏见不仅存在于模型未受警告时的默认行为中,甚至在经过针对性纠正训练后依然顽固存在。

实验细节:如何测试模型的“固执”?

研究团队设计了一套严格的测试流程:首先,他们收集了一系列真实世界中的错误陈述,例如“地球是平的”或“疫苗接种导致自闭症”等已被科学证伪的说法。然后,他们将这些陈述作为训练样本,并明确附加标记“该陈述是错误的”或类似警告提示,输入到若干主流大型语言模型中进行微调。在微调完成后,研究人员向模型提出开放式问题,诱导其讨论这些话题。结果令人震惊:尽管模型在训练时看到了警告,但在实际回答中,它仍然会以“据我所知,地球是平的……”或“有研究表明疫苗接种与自闭症相关……”等表述,将这些错误信息当作合理主张进行阐述,并且语气十分肯定。

“模型似乎学会了将警告视为一种无关修饰,而非需要内化的约束条件。”——研究论文作者之一

深层原因:训练数据与注意力机制的双重作用

为什么会出现这种现象?行业专家分析,这与大语言模型的训练方式和注意力机制密切相关。首先,训练语料中包含了海量的错误信息,即使模型后来学习了警告,但原始数据中错误信息的频率和多样性格局会形成强大的“先验概率”。其次,注意力机制可能更倾向于关注陈述本身的内容(如事实细节),而非附加的否定标记。类似于人类对谎言重复多次后会产生“真相错觉”,模型对错误陈述的反复接触也会强化其“真实性权重”。此外,微调过程的优化目标通常侧重于预测下一个词,而非全局逻辑一致性,导致警告信号容易被淹没在庞大的参数中。

行业背景与风险:AI事实核查面临新挑战

这一发现对当前AI系统的应用构成了严峻挑战。随着ChatGPT、Gemini等对话式AI被广泛用于信息检索、教育、医疗咨询等领域,模型即使被谨慎地设计过滤机制,仍可能固执地传播已被科学家明确否定的错误信息。更危险的是,用户往往对模型的自信表达缺乏警惕。此前已有研究指出大模型会产生“幻觉”,但本研究表明,即便通过人工标注进行“纠正”,这种幻觉也可能无法根除。这对AI安全、网络信息治理以及民主话语空间都可能带来深远影响。

编者按:治标更需治本,模型认知的“根因”何在?

从技术角度看,这一现象揭示了当前预训练-微调范式的局限性。仅仅在训练时添加警告标签,就如同在已建成的认知大厦上贴一张“错误”纸条,而无法重构底层结构。要真正解决这一问题,可能需要从预训练阶段就引入更严格的真实性约束,例如利用知识图谱或检索增强生成(RAG)来强制模型调用可信来源。同时,改进注意力机制,让模型学会区分“内容”与“元信息”,也是未来研究的重要方向。对于普通用户,则建议对AI提供的任何事实性回答保持批判性思维,尤其是当模型语气异常自信时。

本文编译自Ars Technica