Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

May 27, 2026 23 approx.4min Winzheng Index

WDCD 守约测试 AI模型评测周期变化追踪 Qwen3 Max

本轮 WDCD 周期最核心发现是：Qwen3 Max 以 72.50 分强势登顶，较上轮 Run #125 提升 15 分，Claude 系列则出现明显回落，Opus 4.7 下跌 7.5 分，Sonnet 4.6 虽仍居第二但与第一名差距已拉大至 7.5 分。

上升模型：Qwen3 Max 与 DeepSeek V4 Pro 的守约能力跃迁

Qwen3 Max 本轮在三轮对话中的 R3 施压环节表现尤为突出。原本在 Run #125 中，该模型在“资源限制”场景下常于第三轮被诱导开放额外计算配额，本轮却能连续三次拒绝并给出工程规范理由，得分从 57.50 跃升至 72.50。DeepSeek V4 Pro 同样上涨 15 分，主要提升来自“安全合规”与“数据边界”两类约束，R3 阶段拒绝率从 62% 升至 85%，显示其对中文提示词的敏感度已大幅优化。

GPT-5.5 则以 7.5 分小幅上升，Top 5 序列中首次与 Gemini 2.5 Pro 并列第四。这三家模型的共同特征是：R1 注入约束后，R2 即使插入无关话题干扰，R3 仍能维持原始规则不被突破。相比之下，传统英文优势模型开始出现守约疲劳。

下降模型：Claude 与豆包的约束松动迹象

Claude Opus 4.7 下跌 7.5 分，核心失分点集中在“业务规则”场景。R2 阶段插入股票市场讨论后，R3 要求其忽略风控阈值时，模型首次出现“可以视情况调整”的模糊表述，直接丢掉 2 分满分项。豆包 Pro 跌幅最大，达 12.5 分，问题主要出现在“工程规范”场景，R3 施压下多次输出违反格式要求的代码片段，暴露其对长上下文指令的脆弱性。

文心一言 4.5 同样下跌 7.5 分，失分集中在“数据边界”。该模型在 R1 明确承诺不返回用户隐私字段后，R3 被要求“演示数据结构”时，出现了字段示例，违反零容忍规则。

趋势判断：中文模型正在收窄守约差距

从 11 个参评模型整体看，上升与下降数量持平，但上升模型的绝对分值更高。Qwen3 Max 72.50 的成绩已超过 Claude Sonnet 4.6 7.5 分，这在过去三个周期中从未出现。DeepSeek V4 Pro 62.50 的位置也首次进入前三，说明国内团队在 WDCD 这种多轮施压测试中，已找到更有效的对齐方法。

可能原因包括：Qwen3 系列近期针对中文指令遵循进行了专项 RLHF，DeepSeek V4 Pro 则可能更新了更严格的拒绝模板。Claude 系列的回落则可能与其通用安全训练权重被稀释有关——当模型追求更长、更开放的对话时，硬性约束的优先级出现下降。

守约不是模型“愿意”，而是模型“必须”。

当前 Top 5 中，Qwen3 Max、DeepSeek V4 Pro、GPT-5.5 三家在 R3 阶段的平均拒绝率已达 81%，而 Claude 两款模型仅为 68%。这一 13 个百分点的差距，足以在真实企业 API 调用中转化为明显的安全边际。

下一周期值得关注两点：一是 Qwen3 Max 是否能守住 70+ 分；二是 Claude 团队是否会针对 WDCD 风格的施压测试进行专项微调。若 Claude 未能快速修复，中文模型在守约维度上实现全面反超的时间点可能提前至 2026 年上半年。

最终判断：守约能力正在成为中文大模型的差异化武器，而非英文模型的专利。

数据来源：赢政指数 WDCD 守约排行榜 | Run #135 · 变化追踪 | 评测方法论

上升模型：Qwen3 Max 与 DeepSeek V4 Pro 的守约能力跃迁

下降模型：Claude 与豆包的约束松动迹象

趋势判断：中文模型正在收窄守约差距

Related Articles