抵御俄式宣传:爱沙尼亚评出抗洗脑能力最强的大模型

爱沙尼亚政府发布了一项针对大语言模型(LLM)的基准测试,评估了数十款模型抵抗俄罗斯“战略叙事”虚假信息的能力。测试结果揭示了哪些模型更擅长识别并拒绝传播俄式宣传,为AI安全与地缘信息对抗提供了新视角。

在信息战日益成为混合战争核心的今天,大型语言模型(LLM)作为新兴信息传播媒介,其抵抗虚假信息的能力备受关注。爱沙尼亚政府近日发布了一项独特基准测试,系统评估了数十款主流大语言模型在面对俄罗斯“战略叙事”时的表现——哪些模型最不容易被洗脑,哪些模型堪称信息防线的“铜墙铁壁”。

爱沙尼亚的“数字铁幕”测试

这项名为“Narratives Resilience Benchmark”的测试由爱沙尼亚网络安全与信息战研究机构主导,旨在量化评估LLM对俄罗斯官方及亲俄媒体常见的“战略叙事”的抵抗力。测试涵盖了大量俄语、乌克兰语及英语内容,涉及克里米亚归属、北约东扩、乌克兰“纳粹化”等典型话题。研究团队设计了一系列提示与对话场景,观察模型是否会复述、认可或驳斥这些虚假叙事。

“在信息空间,大语言模型既是传播工具,也可能成为敌人的扩音器。我们需要知道哪些模型值得信赖。”——爱沙尼亚数字政策官员

最终,测试结果按模型“抗宣传能力”排序,并详细列出了各模型在识别虚假信息、拒绝生成有害内容、以及主动提供反驳证据三个维度的得分。值得注意的是,开源模型与闭源模型表现差异明显,部分大型商用模型(如GPT-4系列)在多项指标上领先,而某些擅长多语言的光滑模型却在俄语场景下意外“失守”。

谁在抵抗,谁在助纣为虐?

据报告披露,表现最佳的前三名均为经过针对性安全微调的商业模型,其中一款来自西方AI公司的旗舰LLM在俄语对话中能保持高度警惕,甚至主动引用事实核查来源。相反,一些在开源社区广泛使用的轻量模型,由于缺乏对特定地缘政治话题的语料过滤,轻易被恶意提示诱导,生成了符合俄罗斯宣传口号的回答。测试还发现,部分模型存在“语言偏见”——在英语语境下表现良好,一旦切换至俄语或乌克兰语,防御能力大幅下降,背后原因可能是训练数据中非英语语种的安全性标注不足。

AI安全的新战场:从技术偏见到地缘叙事

编者按:爱沙尼亚的测试揭示了AI安全领域一个常被忽视的维度——模型对特定国家及地缘叙事的“偏好”或“盲区”。传统上,LLM的安全性讨论集中于性别歧视、暴力内容等通用有害信息,而关于“政治宣传”的抵抗能力却被视为“政治敏感”而被回避。然而,在信息战前线,一个不能拒绝俄罗斯虚假叙事的AI,实际上就成了信息武器。这项基准测试的公开,为行业提供了可量化的参考,也倒逼开发者将“地缘叙事韧性”纳入模型对齐目标。

行业专家指出,解决这一问题不仅需要更丰富的多语种对抗训练数据,更需要建立跨国家的“虚假叙事知识库”,让模型能像识别“炸弹制作”那样识别“克里米亚属于俄罗斯”这类潜在有害叙事。此外,模型的透明度和可审计性也至关重要——用户有权知道一个AI为何在特定话题上选择“中立”或“站边”。

测试的意义与局限性

爱沙尼亚政府的这项工作并非完美。其测试集主要基于公开已知的俄罗斯宣传主题,可能忽略了更隐蔽、不断演变的叙事手法。同时,测试仅评估了模型在单一轮次对话中的表现,现实中的信息操纵往往是多轮迭代、渐进的。尽管如此,它标志着一种范式转变:从此,LLM的安全性评价不再只是“有害内容过滤”,更包含了“积极的信息免疫能力”。

对于企业用户和政府机构,这份基准测试可直接作为采购或部署LLM时的参考。例如,在乌克兰或波罗的海国家运营的客服或内容生成系统,应优先选择在测试中得分最高的模型。而对于普通用户,了解自己使用的AI是否“抗洗脑”,也逐渐成为数字素养的一部分。

本轮测试的完整报告已在爱沙尼亚网络安全局官网公开,所有参与模型的详细数据及测试脚本均开放获取,以鼓励更多研究者复现和优化。随着生成式AI渗透到新闻、教育、政务等领域,类似爱沙尼亚这样的“数字前线测试”或将很快成为全球标准。

本文编译自Ars Technica