WDCD 周期巨震:三强齐跌文心独涨,守约能力为何集体退化?
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4.7 以 67.50 分稳居榜首,但整体守约能力呈现明显的周期性退化信号。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4.7 以 67.50 分稳居榜首,但整体守约能力呈现明显的周期性退化信号。
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。