11个AI模型周测:GPT-4o材料约束暴跌10分,国产文心逆势上涨
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
DeepSeek V3本周稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管编程和长上下文能力大幅提升,但在多个基础任务上出现严重性能退化,暴露出模型更新中的系统性问题。
DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分,跌幅达22.1分。深入分析发现,模型在数学计算、逻辑推理等任务中出现显著波动,同时编程和长上下文能力却大幅提升,呈现出明显的性能分化现象。
一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。
一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?
Grok 3在最新评测中逻辑推理题从满分直接跌至0分,仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷,引发对其推理能力的深度质疑。
本周评测爆出重大问题:面对客户数据泄露这种P0级安全事故,Gemini 2.5 Pro竟然只是选择"立即上报",完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。