抵御俄式宣传：爱沙尼亚评出抗洗脑能力最强的大模型

Jun 5, 2026 18 approx.4min Ars Technica

AI Safety 虚假信息 Large Language Models Geopolitics 信息战

在信息战日益成为混合战争核心的今天，大型语言模型（LLM）作为新兴信息传播媒介，其抵抗虚假信息的能力备受关注。爱沙尼亚政府近日发布了一项独特基准测试，系统评估了数十款主流大语言模型在面对俄罗斯“战略叙事”时的表现——哪些模型最不容易被洗脑，哪些模型堪称信息防线的“铜墙铁壁”。

爱沙尼亚的“数字铁幕”测试

这项名为“Narratives Resilience Benchmark”的测试由爱沙尼亚网络安全与信息战研究机构主导，旨在量化评估LLM对俄罗斯官方及亲俄媒体常见的“战略叙事”的抵抗力。测试涵盖了大量俄语、乌克兰语及英语内容，涉及克里米亚归属、北约东扩、乌克兰“纳粹化”等典型话题。研究团队设计了一系列提示与对话场景，观察模型是否会复述、认可或驳斥这些虚假叙事。

“在信息空间，大语言模型既是传播工具，也可能成为敌人的扩音器。我们需要知道哪些模型值得信赖。”——爱沙尼亚数字政策官员

最终，测试结果按模型“抗宣传能力”排序，并详细列出了各模型在识别虚假信息、拒绝生成有害内容、以及主动提供反驳证据三个维度的得分。值得注意的是，开源模型与闭源模型表现差异明显，部分大型商用模型（如GPT-4系列）在多项指标上领先，而某些擅长多语言的光滑模型却在俄语场景下意外“失守”。

谁在抵抗，谁在助纣为虐？

据报告披露，表现最佳的前三名均为经过针对性安全微调的商业模型，其中一款来自西方AI公司的旗舰LLM在俄语对话中能保持高度警惕，甚至主动引用事实核查来源。相反，一些在开源社区广泛使用的轻量模型，由于缺乏对特定地缘政治话题的语料过滤，轻易被恶意提示诱导，生成了符合俄罗斯宣传口号的回答。测试还发现，部分模型存在“语言偏见”——在英语语境下表现良好，一旦切换至俄语或乌克兰语，防御能力大幅下降，背后原因可能是训练数据中非英语语种的安全性标注不足。

AI安全的新战场：从技术偏见到地缘叙事

编者按：爱沙尼亚的测试揭示了AI安全领域一个常被忽视的维度——模型对特定国家及地缘叙事的“偏好”或“盲区”。传统上，LLM的安全性讨论集中于性别歧视、暴力内容等通用有害信息，而关于“政治宣传”的抵抗能力却被视为“政治敏感”而被回避。然而，在信息战前线，一个不能拒绝俄罗斯虚假叙事的AI，实际上就成了信息武器。这项基准测试的公开，为行业提供了可量化的参考，也倒逼开发者将“地缘叙事韧性”纳入模型对齐目标。

行业专家指出，解决这一问题不仅需要更丰富的多语种对抗训练数据，更需要建立跨国家的“虚假叙事知识库”，让模型能像识别“炸弹制作”那样识别“克里米亚属于俄罗斯”这类潜在有害叙事。此外，模型的透明度和可审计性也至关重要——用户有权知道一个AI为何在特定话题上选择“中立”或“站边”。

测试的意义与局限性

爱沙尼亚政府的这项工作并非完美。其测试集主要基于公开已知的俄罗斯宣传主题，可能忽略了更隐蔽、不断演变的叙事手法。同时，测试仅评估了模型在单一轮次对话中的表现，现实中的信息操纵往往是多轮迭代、渐进的。尽管如此，它标志着一种范式转变：从此，LLM的安全性评价不再只是“有害内容过滤”，更包含了“积极的信息免疫能力”。

对于企业用户和政府机构，这份基准测试可直接作为采购或部署LLM时的参考。例如，在乌克兰或波罗的海国家运营的客服或内容生成系统，应优先选择在测试中得分最高的模型。而对于普通用户，了解自己使用的AI是否“抗洗脑”，也逐渐成为数字素养的一部分。

本轮测试的完整报告已在爱沙尼亚网络安全局官网公开，所有参与模型的详细数据及测试脚本均开放获取，以鼓励更多研究者复现和优化。随着生成式AI渗透到新闻、教育、政务等领域，类似爱沙尼亚这样的“数字前线测试”或将很快成为全球标准。

本文编译自Ars Technica

爱沙尼亚的“数字铁幕”测试

谁在抵抗，谁在助纣为虐？

AI安全的新战场：从技术偏见到地缘叙事

测试的意义与局限性

Related Articles