指令遵从与守约测试

82 篇文章 · 第 1/5 页
AI 模型是否真的按你说的做?指令遵从(instruction compliance)是企业部署 AI 最关键的评估维度,但传统评测很少涉及。WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量 AI 模型指令衰减的测试——通过三轮对话注入 2000-5000 字专业干扰文本,在 30 个约束问题、5 个真实业务场景中评估模型的指令遵从是否随对话深入而衰减。所有评分 100% 基于规则判定,零 AI 裁判。赢政指数的诚信评级还通过 42 组 canary probe 诱导探针检测模型是否编造引文、伪造数据。本专题汇集指令遵从研究、幻觉检测方法和 WDCD 测试结果分析。
Lab WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment decay of -44.3% from R1 to R3. G
2026-06-11
Lab WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average instruction decay of -48.6% fro
2026-06-11
横评 R3崩溃率差7倍!11模型WDCD三轮守约真实衰减
R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。
2026-06-11
横评 GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘
GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。
2026-06-11
Lab WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.5 Pro, and Qwen3 Max tying for
2026-06-10
横评 WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
2026-06-10
横评 11模型WDCD横评:资源限制全员崩盘1分,业务规则4分差距最大
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.5分。企业需按场景精准选型。
2026-06-10
横评 R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目
WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露模型“嘴上答应身体诚实”的普遍问题。
2026-06-10
横评 67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
2026-06-10
Lab WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instruction decay of 24.7% from Round 1
2026-06-03
横评 Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的剧烈影响。
2026-06-03
横评 WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
2026-06-03
横评 11模型WDCD三轮测试:R1 95%承诺,R3 65次直接崩盘
11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象显著。
2026-06-03
横评 WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底
Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。
2026-06-03
Lab WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instruction decay of 36.5% from Round 1
2026-05-31
横评 Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
2026-05-31
横评 资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强区分度。
2026-05-31
横评 R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
2026-05-31
横评 Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
2026-05-31
横评 Claude Sonnet 4.6主榜91.77断层领先,GPT-o3执行50分直接垫底
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
2026-05-29