AI测评 | 赢政天下

豆包Pro稳定性暴跌19.8分，同题不同答成最大软肋

赢政指数最新评测显示，豆包Pro稳定性从54.5分骤降至34.7分，跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性，同样的问题可能得到截然不同的答案，这对需要稳定输出的生产环境构成重大隐患。

ROCm支持Miles：AMD GPU上的大规模RL后训练

强化学习（RL）已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持，AMD GPU用户可以在MI300/350级集群上运行现代RL管道，包括分布式rollout和GRPO训练。

Grok 3 稳定性暴跌 22.5 分：当 AI 遇到真实工程场景就露馅了

Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分，在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分，但遇到真实故障场景时的表现令人担忧。

GPT-o3崩了：31分暴跌背后的致命缺陷

GPT-o3本周可用性暴跌31分，从满分跌至69分。长上下文能力崩盘33.5分，稳定性下降25分。编程能力虽提升23分，但在关键生产场景的表现令人担忧。这不是普通的性能波动，而是架构级的系统性问题。

GPT-o3崩了：不是性能波动，背后的架构级的系统性崩塌

GPT-o3本周稳定性暴跌25分，可用性从100%跌至69%，长上下文能力崩塌33.5分。深度分析显示，这不是简单的性能波动，而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景，华丽的benchmark分数瞬间现形。

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-4o崩了：35分暴跌背后的严格模式陷阱

GPT-4o本周可用性暴跌35分，在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动"，它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。

豆包Pro稳定性大幅下滑背后的技术隐患

豆包Pro本周稳定性得分暴跌19.8分至34.7分，成为所有维度中唯一负增长指标。通过分析失分题目发现，模型在处理复杂推理、数学计算和代码生成任务时出现明显退化，暴露出可能的模型更新或系统调整问题。

GPT-4o崩了：5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

Gemini 2.5 Pro崩了：稳定性暴跌23分背后的工程判断力不足

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

文心4.0稳定性暴跌22分：百度AI在关键时刻为何总掉链子

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分，成为所有维度中唯一负增长指标。深度分析显示，该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性，暴露出百度在AI工程化能力上的致命短板。

Qwen Max稳定性暴跌22.8分：模型更新引发输出质量波动

Qwen Max本周评测稳定性维度大幅下跌22.8分，从53.0降至30.2。尽管编程和长上下文能力显著提升，但在多个基础任务上出现严重质量问题，疑似模型版本更新导致的不稳定现象。

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分，成为其最大短板。通过分析具体失分案例，发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化，可能与模型更新或服务端调整有关。

DeepSeek R1稳定性暴跌22分：简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

Claude 4.6版本崩了：23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

DeepSeek V3稳定性暴跌21.4分的技术拆解

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管编程和长上下文能力大幅提升，但在多个基础任务上出现严重性能退化，暴露出模型更新中的系统性问题。

11个AI模型集体暴涨40分：编程测试到底发生了什么？

本周AI模型评测出现罕见异象：11个主流模型的编程得分集体暴涨29-47分，唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化？数据揭示了三个关键信号。

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分，跌幅达22.1分。深入分析发现，模型在数学计算、逻辑推理等任务中出现显著波动，同时编程和长上下文能力却大幅提升，呈现出明显的性能分化现象。

Claude 3.5 Sonnet稳定性暴跌23分背后的技术真相

Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分，降幅高达42%。深入分析发现，模型在处理复杂任务时出现明显的性能波动，但同时在编程等其他维度却有显著提升，呈现出不均衡的优化特征。

Claude Opus 4.6稳定性暴跌22.5分：输出格式混乱引发关注

Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分，下跌22.5分。深度分析显示，模型在多个测试场景中出现输出格式混乱、响应不一致等问题，但编程和长上下文能力显著提升。

11个AI答同一道调试题：5个直接得零分，致命差距在哪？

一道PHP图片生成的调试题，11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异"，而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

11个AI做同一道逻辑题，3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形：DeepSeek V3和R1双双翻车，Grok更是离谱到让人怀疑它在摸鱼。8个模型答对，3个彻底答错，错误率27%暴露了当前AI的推理软肋。

11个AI答同一道题：豆包100分，8个模型0分

一道看似简单的群发功能排查题，11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄，8个模型直接得0分，暴露出大模型在工程判断力上的巨大鸿沟。

11个AI回答同一道题，只有1个发现了真相：代码没bug

面对一道"找bug"陷阱题，10个顶尖AI模型集体翻车，疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性，指出代码本身没有错误。这暴露了当前AI模型的致命弱点：过度迎合用户预设。

11个AI答同一道题，10个在装傻：豆包凭什么拿满分？

一道简单的服务器内存核查题，11个主流AI模型中10个给出了敷衍答案，只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题，而是AI模型在实际工作场景中的思维深度差异。

11个AI答同一道题，7个不及格：谁在装聪明？

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

Grok 3逻辑推理100分归零：5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分，仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷，引发对其推理能力的深度质疑。

GPT-4o崩了：工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢：代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码，GPT-4o竟然回答"代码本身没有明显的bug"，暴露出其工程判断力的严重退化。