Smoke轻测:豆包Pro执行100分独秀,9模型主榜暴跌30分以上

今日Smoke轻量评测结果直接打破了市场对主流模型稳定表现的预期。豆包Pro以91.23分占据绝对第一,代码执行维度直接拉满100分,材料约束80.5分且诚信评级pass,成为唯一在10题快测中代码环节零失误的模型。

执行维度集体低迷,测试难度或已升级

其余模型在代码执行上表现惨淡:Gemini 3.1 Pro执行57.2分已是第二高,其余如Claude Sonnet 4.6、Grok 4、Qwen3 Max、GPT-5.5等均停留在50分,Gemini 2.5 Pro和文心一言4.5更是直接0分。这不是简单排名变化,而是执行能力断层式下滑。

结合昨日对比数据,Gemini 2.5 Pro主榜暴跌54.3分,DeepSeek V4 Pro跌36.2分,文心一言4.5跌36.7分,Grok 4与Qwen3 Max也分别下跌34.7分和34.3分。执行分集体腰斩或归零,指向今日10题代码任务难度显著提升,而非模型本身突然失效。

材料约束相对稳健,但仍现异常

材料约束维度多数模型维持在70-81分区间,Claude Sonnet 4.6以81分最高,Gemini 3.1 Pro和Claude Opus 4.7紧随其后。但Claude Opus 4.7约束分单日暴跌17.6分,显示即使约束能力较强的模型也出现明显波动。

诚信评级方面,Gemini 2.5 Pro、文心一言4.5、Qwen3 Max从warn或fail转为pass,说明部分模型在合规输出上有所改善,但这并未抵消执行维度的巨大损失。

行业洞察:代码能力成为新分水岭

豆包Pro的满分执行表现,印证了其在工程任务上的持续优化。其他头部模型在复杂代码场景下的一致性不足,暴露出当前训练与对齐策略的局限。今日评测更像一次压力测试,暴露了多数模型在真实工程约束下的脆弱性。

综合来看,豆包Pro已形成明显代差优势,其余模型若想追赶,必须在代码执行的鲁棒性上做针对性突破,否则主榜差距将继续扩大。

代码执行不再是加分项,而是决定生死的主战场。

数据来源:赢政指数 (YZ Index) | Run #127 | 查看原始数据