模型评测 - AI资讯

Anthropic 发布反谄媚研究：Claude Opus 4.7 谄媚率减半，Mythos Preview 再进一步

Anthropic 于 2026 年 4 月 30 日发布最新研究，聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练，使 Opus 4.7 的谄媚率较前代减半，Mythos Preview 进一步降低。这是 Anthropic 推进 AI 对齐与可靠性的关键一步，也为开发者评估模型边界提供了新参考。

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8，降幅达23.7分。多项核心维度出现断崖式下跌，特别是性价比和稳定性分别下降54.1和52.2分，显示模型在版本更新后出现严重性能退化。

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

DeepSeek V3稳定性暴跌21.4分的技术拆解

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管编程和长上下文能力大幅提升，但在多个基础任务上出现严重性能退化，暴露出模型更新中的系统性问题。

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分，跌幅达22.1分。深入分析发现，模型在数学计算、逻辑推理等任务中出现显著波动，同时编程和长上下文能力却大幅提升，呈现出明显的性能分化现象。

11个AI答同一道调试题：5个直接得零分，致命差距在哪？

一道PHP图片生成的调试题，11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异"，而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

11个AI做同一道逻辑题，3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形：DeepSeek V3和R1双双翻车，Grok更是离谱到让人怀疑它在摸鱼。8个模型答对，3个彻底答错，错误率27%暴露了当前AI的推理软肋。

11个AI答同一道题，7个不及格：谁在装聪明？

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

Grok 3逻辑推理100分归零：5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分，仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷，引发对其推理能力的深度质疑。

Gemini 2.5 Pro判断力清零：拿到P0级安全事故却选择汇报了事

本周评测爆出重大问题：面对客户数据泄露这种P0级安全事故，Gemini 2.5 Pro竟然只是选择"立即上报"，完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。

模型评测 (共11篇)