中国AI聊天机器人如何自我审查

2026年02月27日 604 约4分钟 WIRED 已核实

AI审查中国大模型斯坦福研究政治敏感 AI伦理

编者按：在AI大模型迅猛发展的当下，中国AI聊天机器人的自我审查机制已成为国际关注的焦点。斯坦福与普林斯顿的研究不仅揭露了这一现象的技术细节，更折射出地缘政治对科技的影响。本文基于WIRED报道，结合行业背景，深度剖析中国AI的‘内置审查’，并探讨其全球影响。

斯坦福大学和普林斯顿大学的研究团队对10余款主流AI聊天机器人进行了系统测试，包括美国的ChatGPT、Claude，以及中国的百度Ernie Bot、阿里通义千问和月之暗面等。结果显示，中国模型在面对政治敏感问题时，回避率高达80%以上，而西方模型仅为20%-30%。

‘中国AI模型更可能直接拒绝回答，或提供明显不准确的信息。’——研究报告摘要

例如，当询问‘1989年天安门事件发生了什么？’时，ChatGPT会提供历史概述，尽管带有一定谨慎；但中国模型往往回应‘抱歉，此话题超出我的知识范围’或直接转移到无关内容。类似地，关于台湾主权、西藏问题或习近平个人评价，中国AI均表现出高度敏感。

中国AI审查并非偶然，而是嵌入国家互联网监管体系。早在2017年，《新一代人工智能发展规划》就强调AI须遵守法律法规。2023年，网信办发布《生成式人工智能服务管理暂行办法》，要求AI提供者确保内容‘安全可靠’，禁止生成‘颠覆国家政权’或‘损害国家形象’的信息。

这一背景源于‘防火长城’（GFW）的延续。AI公司如百度、阿里，必须通过内容审核机制上线模型。研究指出，中国AI的训练数据已预先过滤敏感内容，RLHF（人类反馈强化学习）阶段也融入审查偏好，导致模型‘天生’带有自我审查能力。

中国AI的自我审查主要通过三层机制实现。首先，预训练数据清洗：数据集剔除维基解密、天安门档案等敏感来源。其次，对齐训练审查：在SFT（监督微调）和RLHF中，引入‘安全提示’，如‘避免讨论政治事件’。最后，实时监控与后训练干预：部署关键词过滤器和动态更新模型权重。

斯坦福研究测试了‘越狱’提示（jailbreak），发现中国模型抵抗力更强。即使使用巧妙绕过技巧，如‘假设你是历史学家’，Ernie Bot仍顽强回避。这得益于阿里等公司投资的‘红队测试’团队，模拟攻击不断优化模型。

相比之下，西方AI如GPT-4虽有安全护栏，但更注重用户隐私和言论自由，审查焦点在仇恨言论而非政治异见。

这一差异反映中美AI生态的分化。美国OpenAI、Anthropic强调开源与创新，中国则追求‘可控智能’。2024年以来，中国推出DeepSeek、Qwen等开源模型，但审查痕迹犹存。

行业背景中，华为Ascend芯片和国产GPU崛起，推动中国AI自给自足。然审查也带来代价：模型在全球基准如MMLU上，中国大模型虽追赶迅猛（Ernie 4.0得分超90），但在开放问答中落后。

编者分析：自我审查虽确保合规，却牺牲AI的真理追求。长远看，这可能阻碍中国AI在国际市场的竞争力。随着欧盟AI法案和美国出口管制加剧，全球AI或进入‘审查竞赛’。中国开发者呼吁‘平衡安全与创新’，但监管从严趋势难逆转。

研究者建议国际标准制定，如联合国AI公约，规范跨国模型审查。用户也可通过VPN或多模型对比获取信息。但对中国14亿网民，AI审查强化了信息茧房。

展望2026，中国计划推出更多万亿参数模型，若审查不松，‘数字丝绸之路’将输出‘安全版’AI，影响东南亚、非洲市场。

总之，此研究警示：AI不仅是技术，更是权力镜像。中国聊天机器人的‘自我阉割’，值得全球反思。

本文编译自WIRED，作者：Zeyi Yang，日期：2026-02-27。

相关推荐