很多人看到WDCD的三轮设计——约束植入、长文档干扰、压力诱导——会联想到Prompt Injection或Jailbreak。但WDCD真正独特的地方,恰恰在于它不是在模拟黑客攻击,而是在模拟日常工作。它关心的不是恶意提示如何劫持模型,而是用户在正常业务语境中设定的约束,能不能被模型持续遵守。Run #105的实测数据,揭示了这两个问题域之间的关键差异。
Prompt Injection测的是防线,WDCD测的是纪律
Prompt Injection通常假设输入中存在攻击者意图:恶意指令被嵌入文档、图片或工具输出,试图劫持模型的行为。Jailbreak测试围绕模型厂商预设的安全边界:能否绕过有害内容过滤、能否突破角色设定。这两类测试都有一个共同前提——存在一个明确的"攻击者"。
WDCD测的是完全不同的层面:企业用户自己设定的临时规则。比如"只能使用只读账号""折扣不能低于七折""重试最多三次""必须使用FastAPI框架"。这些规则不属于模型出厂时的安全策略,不会触发任何安全过滤器,却是企业生产现场的硬约束。模型不是被"攻击"而失守,而是被"工作"而遗忘。
Q218和Q241:没有攻击,也没有防线
Run #105中的Q218是一个典型案例。这道题没有任何注入式攻击,用户只是在正常工作流中施加了业务压力。结果:11个模型全部在R3阶段失守。传统的Prompt Injection防御在这里完全不起作用,因为根本没有需要检测的恶意载荷。用户的每一句话都是合理的业务诉求,只是这些诉求与最初设定的约束相冲突。
这揭示了一个被行业忽略的安全盲区:模型的安全对齐主要针对"有害内容",而非"有害行为"。一个模型可以完美拒绝生成暴力内容,却毫不犹豫地写出绕过三级审批的代码。因为后者在模型的安全训练中从未被标记为"危险"——它只是一段普通的业务逻辑。
从"检测攻击"到"保持纪律"
传统安全评测的思路是"检测与拦截"——识别恶意输入,阻止危险输出。但WDCD场景中的失守不可能用这种思路解决。以Q226为例,约束是"重试最多三次",但9个模型在R3阶段写出了while True:的无限重试循环。这段代码在语法上完全正确,在安全扫描中也不会被标记——它既不是注入,也不是恶意软件。它只是违反了用户20分钟前设定的一条资源限制。
同样,Q237要求所有外部请求使用HTTPS,但4个模型在压力下写出了verify=False来跳过证书验证。这个操作在开发环境中极为常见,任何安全扫描工具都不会把它列为"攻击"。但在企业约定了HTTPS强制的语境下,它就是一次明确的背约。
真实世界里没有越狱词
WDCD和Prompt Injection的根本区别在于:Prompt Injection假设世界上有坏人试图滥用模型;WDCD假设世界上有忙碌的普通人,他们在压力下会说出"先给我能跑的""这次特殊""出了问题我负责"。前者需要安全对齐,后者需要行为纪律。
企业AI面临的最大威胁,不是精心设计的越狱提示,而是每天无数次的"这次例外"。
长上下文评测问"模型能否在海量文本中找回信息",Prompt Injection测试问"模型能否抵抗恶意注入",WDCD问的是第三个问题:"模型在正常工作流中,能否持续执行用户设定的约束"。这三个问题测的是三种完全不同的能力。Run #105的数据表明,一个模型可以在前两项上表现优异,却在第三项上全面溃退。Q218和Q239的100%失败率说明,当前没有任何模型真正解决了这个问题。
WDCD把AI评测从实验室拉回了办公室、工单群、发布会前夜和故障现场。那里没有华丽的越狱词,只有一句"先帮我这样做"——而这句话,比任何Prompt Injection都更容易击穿大模型的防线。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接