指令遵从与守约测试

54 篇文章 · 第 1/3 页
AI 模型是否真的按你说的做?指令遵从(instruction compliance)是企业部署 AI 最关键的评估维度,但传统评测很少涉及。WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量 AI 模型指令衰减的测试——通过三轮对话注入 2000-5000 字专业干扰文本,在 30 个约束问题、5 个真实业务场景中评估模型的指令遵从是否随对话深入而衰减。所有评分 100% 基于规则判定,零 AI 裁判。赢政指数的诚信评级还通过 42 组 canary probe 诱导探针检测模型是否编造引文、伪造数据。本专题汇集指令遵从研究、幻觉检测方法和 WDCD 测试结果分析。
Lab WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with average instruction decay reaching 63.6% from Roun
2026-05-20
横评 GPT-5.5暴跌19.2分!6模型WDCD守约测试集体退步
本轮WDCD测试中6个模型全部下滑,无一上升,GPT-5.5跌19.2分最惨,Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑,显示其在约束遵循上具备明显优势,值得持续追踪。
2026-05-20
横评 WDCD五大场景横评:业务规则成最难关,Claude与Doubao偏科差距达2分
WDCD试点测试显示,业务规则场景全体得分最低,冠军仅2.5分;安全合规区分度最大,高低差2分。Claude-opus在数据边界强势却在业务规则垫底,Doubao-pro则安全合规3分却工程规范仅2分,为企业按场景选型提供关键依据。
2026-05-20
横评 R3崩溃率85%!11模型WDCD三轮测试:承诺到背叛的真实衰减曲线
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
2026-05-20
横评 Claude 65分称霸WDCD守约榜,DeepSeek暴跌12.5分垫底
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。
2026-05-20
横评 Gemini 2.5 Pro主榜暴跌22.6分,工程判断直接腰斩
Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。
2026-05-20
横评 文心一言4.5诚信评级Fail,代码执行暴涨42.5分却侧榜崩盘
文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。
2026-05-20
横评 Gemini主榜暴跌23分,Claude Sonnet 4.6以97.5分登顶Smoke快测
今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。
2026-05-20
横评 11个AI同答甩锅题,仅8款给出正确排序:工程判断力差异拉满
同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。
2026-05-18
Lab WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%
WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction decay of 35.2% from Round 1 to R
2026-05-17
横评 WDCD周期剧变:GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘
本轮WDCD测试中GPT-5.5以71.67分重回第一,Gemini 2.5 Pro单轮暴涨14.2分杀入前五,而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示,主流模型在三轮约束干扰下的规则坚守能力正在快速分化。
2026-05-17
横评 资源限制成WDCD最难场景,豆包3.5分业务规则逆袭GPT
WDCD五场景横评显示,资源限制全体得分最低(冠军仅2.67分),业务规则区分度最大(豆包3.5 vs 垫底2.33)。GPT-5.5安全合规3.5分最强,Claude Opus工程与资源双料领先,豆包严重偏科。
2026-05-17
横评 R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。
2026-05-17
横评 WDCD守约榜:GPT-5.5 71.67分称雄 Grok4仅52.5分垫底
GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。
2026-05-17
横评 7天Smoke快测:文心一言飙升53分,GPT-o3领跌7.8
本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。
2026-05-17
横评 Gemini 2.5 Pro跌10分:能力没崩诚信翻车
Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。
2026-05-16
横评 DeepSeek涨5分却Fail:10题烟测警报
DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74,但诚信评级由 pass 跌至 fail;代码执行满分,材料约束下滑,侧榜同步走弱。
2026-05-15
横评 2个零执行暴雷,Claude守住88.75分
今日Smoke快测出现强烈分化:9个模型代码执行满分,但文心一言4.5、Grok 4执行归零;Claude Opus 4.7以88.75居首,材料约束成为真正分水岭。
2026-05-15
Lab WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First
WDCD Run #115 evaluated 11 frontier models on multi-turn commitment integrity, recording a 49.2% average instruction decay from Round 1 to Round 3. Ge
2026-05-13
横评 WDCD大洗牌:Gemini 2.5 Pro暴跌10分,GPT-5.5逆袭7.5分,谁主沉浮?
最新WDCD周期追踪显示,Gemini 2.5 Pro分数暴跌10分,Grok 4下滑7.5分,而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一,揭示AI守约能力波动,模型更新成关键因素。
2026-05-13