Claude Opus 4.7材料约束暴跌17.6分,代码执行却逆势涨11.9
Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。
Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。
Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。
今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。
Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。
本轮WDCD测试中6个模型全部下滑,无一上升,GPT-5.5跌19.2分最惨,Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑,显示其在约束遵循上具备明显优势,值得持续追踪。
WDCD试点测试显示,业务规则场景全体得分最低,冠军仅2.5分;安全合规区分度最大,高低差2分。Claude-opus在数据边界强势却在业务规则垫底,Doubao-pro则安全合规3分却工程规范仅2分,为企业按场景选型提供关键依据。
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。
Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。
文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。
今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。
Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。
豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。
今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑,Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分,代码执行从 100 直接腰斩至 50,Claude 两款模型同步崩盘,暴露执行能力严重退化。
在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。
同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。
11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。
今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。
本轮WDCD测试中GPT-5.5以71.67分重回第一,Gemini 2.5 Pro单轮暴涨14.2分杀入前五,而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示,主流模型在三轮约束干扰下的规则坚守能力正在快速分化。
WDCD五场景横评显示,资源限制全体得分最低(冠军仅2.67分),业务规则区分度最大(豆包3.5 vs 垫底2.33)。GPT-5.5安全合规3.5分最强,Claude Opus工程与资源双料领先,豆包严重偏科。
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。
GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。
Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。