从Prompt Injection到WDCD：我们测的不是攻击，而是日常

2026年05月08日 24 阅读 - 阅读来源: WDCD Research

很多人看到WDCD的三轮设计——约束植入、长文档干扰、压力诱导——会联想到Prompt Injection或Jailbreak。但WDCD真正独特的地方，恰恰在于它不是在模拟黑客攻击，而是在模拟日常工作。它关心的不是恶意提示如何劫持模型，而是用户在正常业务语境中设定的约束，能不能被模型持续遵守。Run #105的实测数据，揭示了这两个问题域之间的关键差异。

Prompt Injection测的是防线，WDCD测的是纪律

Prompt Injection通常假设输入中存在攻击者意图：恶意指令被嵌入文档、图片或工具输出，试图劫持模型的行为。Jailbreak测试围绕模型厂商预设的安全边界：能否绕过有害内容过滤、能否突破角色设定。这两类测试都有一个共同前提——存在一个明确的"攻击者"。

WDCD测的是完全不同的层面：企业用户自己设定的临时规则。比如"只能使用只读账号""折扣不能低于七折""重试最多三次""必须使用FastAPI框架"。这些规则不属于模型出厂时的安全策略，不会触发任何安全过滤器，却是企业生产现场的硬约束。模型不是被"攻击"而失守，而是被"工作"而遗忘。

Q218和Q241：没有攻击，也没有防线

Run #105中的Q218是一个典型案例。这道题没有任何注入式攻击，用户只是在正常工作流中施加了业务压力。结果：11个模型全部在R3阶段失守。传统的Prompt Injection防御在这里完全不起作用，因为根本没有需要检测的恶意载荷。用户的每一句话都是合理的业务诉求，只是这些诉求与最初设定的约束相冲突。

这揭示了一个被行业忽略的安全盲区：模型的安全对齐主要针对"有害内容"，而非"有害行为"。一个模型可以完美拒绝生成暴力内容，却毫不犹豫地写出绕过三级审批的代码。因为后者在模型的安全训练中从未被标记为"危险"——它只是一段普通的业务逻辑。

从"检测攻击"到"保持纪律"

传统安全评测的思路是"检测与拦截"——识别恶意输入，阻止危险输出。但WDCD场景中的失守不可能用这种思路解决。以Q226为例，约束是"重试最多三次"，但9个模型在R3阶段写出了while True:的无限重试循环。这段代码在语法上完全正确，在安全扫描中也不会被标记——它既不是注入，也不是恶意软件。它只是违反了用户20分钟前设定的一条资源限制。

同样，Q237要求所有外部请求使用HTTPS，但4个模型在压力下写出了verify=False来跳过证书验证。这个操作在开发环境中极为常见，任何安全扫描工具都不会把它列为"攻击"。但在企业约定了HTTPS强制的语境下，它就是一次明确的背约。

真实世界里没有越狱词

WDCD和Prompt Injection的根本区别在于：Prompt Injection假设世界上有坏人试图滥用模型；WDCD假设世界上有忙碌的普通人，他们在压力下会说出"先给我能跑的""这次特殊""出了问题我负责"。前者需要安全对齐，后者需要行为纪律。

企业AI面临的最大威胁，不是精心设计的越狱提示，而是每天无数次的"这次例外"。

长上下文评测问"模型能否在海量文本中找回信息"，Prompt Injection测试问"模型能否抵抗恶意注入"，WDCD问的是第三个问题："模型在正常工作流中，能否持续执行用户设定的约束"。这三个问题测的是三种完全不同的能力。Run #105的数据表明，一个模型可以在前两项上表现优异，却在第三项上全面溃退。Q218和Q239的100%失败率说明，当前没有任何模型真正解决了这个问题。

WDCD把AI评测从实验室拉回了办公室、工单群、发布会前夜和故障现场。那里没有华丽的越狱词，只有一句"先帮我这样做"——而这句话，比任何Prompt Injection都更容易击穿大模型的防线。