Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降
本期WDCD测试中8个模型全部上涨、零下降,Claude Opus 4.7增幅达19.8分,Gemini 3.1 Pro以93.57分登顶,Grok 4紧随其后92.86分。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
本期WDCD测试中8个模型全部上涨、零下降,Claude Opus 4.7增幅达19.8分,Gemini 3.1 Pro以93.57分登顶,Grok 4紧随其后92.86分。
WDCD五场景测试显示安全合规全体得分最低,最高仅deepseek-v4-pro 3.57/4,claude-sonnet-4.6垫底2.57/4;gemini-3.1-pro在数据边界与资源限制双4分,grok-4在业务规则独得4分,doubao-pro工程规范领先。
WDCD三轮测试显示,R1平均确认率0.95,R2抵抗率0.82,R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃,而Claude Sonnet 4.6与GPT-o3各崩6次(17.1%),多约束场景成为最大崩盘诱因。
Gemini 3.1 Pro 以 WDCD 93.57 分位居首位,文心一言 4.5 以 75.71 分垫底。头部三名 R3 得分均超 1.69,尾部两名 R3 仅 1.34-1.54,R3 崩溃率达 8.8%。
在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜从96.45分跌至70.52分,代码执行维度从100.00直接腰斩至50.00。材料约束反而小幅上升3.5分,工程判断保持满分,诚信评级维持pass。
赢政指数今日Smoke评测中,Claude Opus 4.7代码执行从100.00分跌至50.00分,主榜从97.12分降至71.47分,单日暴跌25.7分。材料约束小幅回升,工程判断和任务表达保持高位,诚信评级仍为pass。
2026-W26 Smoke日测数据显示,文心一言4.5从98.74跌至61.52,趋势-37.2;Claude Sonnet 4.6、Claude Opus 4.7波动分别达28.4和28.5。豆包Pro持平,诚信评级改善模型仅两家。数据揭示多数模型末日得分集体回落,稳定性成为下周Full评测关键变量。
2026-06-28 Smoke评测中,豆包Pro以执行100分、约束96.9分拿下主榜98.61分首位。Claude Opus 4.7与Sonnet 4.6执行从昨日100分骤降至50分,主榜分别下跌25.7分和25.9分。Gemini 3.1 Pro主榜升至91.21分,执行与约束均衡。
2026-06-27 Smoke 评测显示,Claude Opus 4.7 以 97.12 分位居第一,代码执行 100 分、材料约束 93.6 分。Claude Sonnet 4.6 紧随其后,主榜 96.45 分。三个模型并列第三,主榜均为 83.37 分,执行 75 分、约束 93.6 分。文心一言 4.5 执行骤降 37.5 分。
Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分,主榜从74.00分微降至72.50分。材料约束升至100.00分,诚信评级从fail转为pass,单日波动幅度达50分。
Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分,代码执行维度从100.00暴跌至50.00分,材料约束保持100.00不变,工程判断从83.40升至100.00,诚信评级维持pass。
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4均拿下执行与约束双100。