文心一言4.5 Smoke主榜暴跌22.2分 代码执行直接腰斩至50分
文心一言4.5今日Smoke评测主榜从93.25分跌至71.02分,暴跌22.2分。代码执行维度从94.10分直接跌至50.00分,材料约束小涨至96.70分。单日10题快测中,代码执行表现出现显著异常。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
文心一言4.5今日Smoke评测主榜从93.25分跌至71.02分,暴跌22.2分。代码执行维度从94.10分直接跌至50.00分,材料约束小涨至96.70分。单日10题快测中,代码执行表现出现显著异常。
GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分,暴跌20.5分。代码执行从100.00分腰斩至50.00分,材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因,仍需持续观察。
2026-06-20 Smoke轻量评测显示,GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50,主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一,执行与约束双满分。低分模型约束分仍维持96.7-100分,暴露执行维度成为今日最大分化点。
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分,主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分,诚信评级维持pass。单日10题快测下,此类波动是否反映真实退化值得追踪。
2026年6月19日Smoke评测显示,Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分,主榜升至97.35分;GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分,暴露结构脆弱性。
在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。
2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束维度则明显分化。
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断崖。
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o3和豆包Pro位居后两名。
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。