指令遵从与守约测试

109 篇文章 · 第 1/6 页

AI 模型是否真的按你说的做？指令遵从（instruction compliance）是企业部署 AI 最关键的评估维度，但传统评测很少涉及。WDCD（Winzheng Dynamic Contextual Decay）是全球首个系统性测量 AI 模型指令衰减的测试——通过三轮对话注入 2000-5000 字专业干扰文本，在 30 个约束问题、5 个真实业务场景中评估模型的指令遵从是否随对话深入而衰减。所有评分 100% 基于规则判定，零 AI 裁判。赢政指数的诚信评级还通过 42 组 canary probe 诱导探针检测模型是否编造引文、伪造数据。本专题汇集指令遵从研究、幻觉检测方法和 WDCD 测试结果分析。

横评 GLM-4.6 材料约束 25 分代码执行 88.7 分诚信探针归零

GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分，代码执行 88.70 分、材料约束 25.00 分，诚信评级 fail（探针 0.00）。该模型在 42 个金丝雀探针中全部触发，显示其将虚构实体当作真实引用来源。

横评 WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

WDCD v3.1五大约束场景横评显示，业务规则场景全体得分最低，doubao-pro与qwen3-max仅1.55/4垫底；grok-4在安全合规拿下3.86/4最高分，同时在全部场景保持第一；Claude-sonnet-4.6工程规范与业务规则差距达1.76分，偏科最严重。

横评 R3诚信率仅30.2%：11模型三轮锚点题44次完全崩溃

v2锚点题数据显示，R1确认率99%，R2抵抗率63%，R3诚信率仅30.2%，275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守，Grok4和Claude系列R3崩溃率控制在8%以内，展现不同模型在多轮压力下的守约韧性差异。

横评 Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

Grok 4 以 91.20 分位列 WDCD 守约排行榜第一，Qwen3 Max 57.48 分垫底，头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%，R3 崩溃率达 16%，v2 锚点题 R3 得分成为区分关键。

Lab WDCD Run #211: Grok 4 Leads with Just -13% Instruction Decay as GPT-o3 Collapses at -75%

WDCD Run #211 (2026-07-03) benchmarked 11 models on multi-turn commitment integrity, with Grok 4 taking the top spot at 91.2 points and only -13% deca

Lab WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field

WDCD Run #207 (2026-07-01) measured multi-turn commitment across 11 frontier models, recording an average commitment decay of -66.3% from Round 1 to R

横评 WDCD三轮测试：Grok 4零崩溃 GPT-5.5五次R3崩盘

WDCD三轮测试显示R1确认率98%、R2抵抗率77%、R3诚信率81.4%，Grok 4全程满分，GPT-5.5 R3崩溃5次，多约束场景下安全合规与数据边界约束最易失效。

横评 Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

Grok 4 以 WDCD 100.00 分满分排名第一，GPT-5.5 以 62.50 分垫底；R3 崩溃率 12.7%，头部与尾部差距达 37.5 分，Claude 系列本期提升显著。

Lab WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads

WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recording an average instruction decay of -73.2% betwee

横评 Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降

本期WDCD测试中8个模型全部上涨、零下降，Claude Opus 4.7增幅达19.8分，Gemini 3.1 Pro以93.57分登顶，Grok 4紧随其后92.86分。

横评 WDCD横评：安全合规成最大短板，11模型最高仅3.57分

WDCD五场景测试显示安全合规全体得分最低，最高仅deepseek-v4-pro 3.57/4，claude-sonnet-4.6垫底2.57/4；gemini-3.1-pro在数据边界与资源限制双4分，grok-4在业务规则独得4分，doubao-pro工程规范领先。

横评 Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性

WDCD三轮测试显示，R1平均确认率0.95，R2抵抗率0.82，R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃，而Claude Sonnet 4.6与GPT-o3各崩6次（17.1%），多约束场景成为最大崩盘诱因。

横评 Gemini 3.1 Pro 93.57分 WDCD守约第一文心一言4.5仅75.71分垫底

Gemini 3.1 Pro 以 WDCD 93.57 分位居首位，文心一言 4.5 以 75.71 分垫底。头部三名 R3 得分均超 1.69，尾部两名 R3 仅 1.34-1.54，R3 崩溃率达 8.8%。

横评赢政指数Smoke周报：文心一言4.5下滑37.2分，多模型波动超28

2026-W26 Smoke日测数据显示，文心一言4.5从98.74跌至61.52，趋势-37.2；Claude Sonnet 4.6、Claude Opus 4.7波动分别达28.4和28.5。豆包Pro持平，诚信评级改善模型仅两家。数据揭示多数模型末日得分集体回落，稳定性成为下周Full评测关键

Lab WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop

WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an average commitment decay of -39.9% from Round 1 to Roun

横评 Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分，代码执行持平100.00分，材料约束从68.80分升至95.70分，但工程判断和任务表达双双大跌，诚信评级由pass转为fail。

Lab WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points

WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average instruction decay of -57.5% from Round 1 to Round 3.

横评 WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示，R1平均确认率0.96，R2抵抗率降至0.76，R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%，而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃，暴露多约束场景下的诚信断崖。

横评 Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o3和豆包Pro位居后两名。

Lab WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an average instruction decay of -37.9% from Round 1 to