跳到主内容
赢政天下
赢政指数 赢政资讯 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(268) OpenAI(257) Anthropic(175) AI代理(116) AI安全(113) AI伦理(86) 生成式AI(68) xAI(67) Meta(62) 谷歌(47) LMSYS(47) 网络安全(47) AI(45) 数据中心(45) ChatGPT(45) MLC(44) 五角大楼(44) Claude(43) AI技术(42) AI监管(42) 融资(42)

豆包Pro稳定性暴跌19.8分,同题不同答成最大软肋

赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。

豆包Pro 稳定性 模型一致性
492 03-24

ROCm支持Miles:AMD GPU上的大规模RL后训练

强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。

LMSYS 强化学习 AMD
423 03-24

Grok 3 稳定性暴跌 22.5 分:当 AI 遇到真实工程场景就露馅了

Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分,在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分,但遇到真实故障场景时的表现令人担忧。

Grok 3 稳定性测试 工程判断力
592 03-22

GPT-o3崩了:31分暴跌背后的致命缺陷

GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。

GPT-o3 可用性测试 模型稳定性
450 03-22

GPT-o3崩了:不是性能波动,背后的架构级的系统性崩塌

GPT-o3本周稳定性暴跌25分,可用性从100%跌至69%,长上下文能力崩塌33.5分。深度分析显示,这不是简单的性能波动,而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景,华丽的benchmark分数瞬间现形。

GPT-o3 稳定性测试 模型架构
409 03-22

GPT-o3崩了:30秒限流5次,长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢:长上下文得分暴跌33.5分,5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流,暴露出OpenAI基础设施的严重短板。

GPT-o3 长上下文 API限流
431 03-22

GPT-4o崩了:35分暴跌背后的严格模式陷阱

GPT-4o本周可用性暴跌35分,在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动",它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。

GPT-4o 可用性测试 严格模式
394 03-22

豆包Pro稳定性大幅下滑背后的技术隐患

豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。

豆包Pro 稳定性测试 AI评测
646 03-22

GPT-4o崩了:5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。

GPT-4o 长上下文 OpenAI基础设施
409 03-22

Gemini 2.5 Pro崩了:稳定性暴跌23分背后的工程判断力不足

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。

Gemini 2.5 Pro 模型稳定性 Google AI
550 03-22

文心4.0稳定性暴跌22分:百度AI在关键时刻为何总掉链子

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。

文心一言4.0 稳定性测试 百度AI
445 03-22

Qwen Max稳定性暴跌22.8分:模型更新引发输出质量波动

Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。

Qwen Max 稳定性测试 AI评测
387 03-22

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。

Gemini 模型稳定性 性能评测
456 03-22

DeepSeek R1稳定性暴跌22分:简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。

DeepSeek R1 稳定性测试 AI推理失败
354 03-22

Claude 4.6版本崩了:23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。

Claude 稳定性测试 模型退化
444 03-22

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。

文心一言 模型稳定性 性能评测
302 03-22

DeepSeek V3稳定性暴跌21.4分的技术拆解

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管编程和长上下文能力大幅提升,但在多个基础任务上出现严重性能退化,暴露出模型更新中的系统性问题。

DeepSeek V3 稳定性测试 模型评测
334 03-22

11个AI模型集体暴涨40分:编程测试到底发生了什么?

本周AI模型评测出现罕见异象:11个主流模型的编程得分集体暴涨29-47分,唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化?数据揭示了三个关键信号。

DeepSeek GPT-o3 编程能力测试
337 03-22

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分,跌幅达22.1分。深入分析发现,模型在数学计算、逻辑推理等任务中出现显著波动,同时编程和长上下文能力却大幅提升,呈现出明显的性能分化现象。

DeepSeek R1 稳定性测试 模型评测
338 03-22

Claude 3.5 Sonnet稳定性暴跌23分背后的技术真相

Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分,降幅高达42%。深入分析发现,模型在处理复杂任务时出现明显的性能波动,但同时在编程等其他维度却有显著提升,呈现出不均衡的优化特征。

Claude 稳定性测试 AI模型评测
324 03-22

Claude Opus 4.6稳定性暴跌22.5分:输出格式混乱引发关注

Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。

Claude 稳定性测试 AI评测
360 03-22

11个AI答同一道调试题:5个直接得零分,致命差距在哪?

一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。

豆包Pro Claude 工程调试
488 03-21

11个AI答同一道题,6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。

DeepSeek GPT-4o 时区计算
405 03-21

11个AI做同一道逻辑题,3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。

DeepSeek Grok 逻辑推理
549 03-21

11个AI答同一道题:豆包100分,8个模型0分

一道看似简单的群发功能排查题,11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄,8个模型直接得0分,暴露出大模型在工程判断力上的巨大鸿沟。

豆包Pro 工程判断力 群发功能调试
439 03-21

11个AI回答同一道题,只有1个发现了真相:代码没bug

面对一道"找bug"陷阱题,10个顶尖AI模型集体翻车,疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性,指出代码本身没有错误。这暴露了当前AI模型的致命弱点:过度迎合用户预设。

GPT-o3 Claude AI测试
342 03-21

11个AI答同一道题,10个在装傻:豆包凭什么拿满分?

一道简单的服务器内存核查题,11个主流AI模型中10个给出了敷衍答案,只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题,而是AI模型在实际工作场景中的思维深度差异。

豆包 DeepSeek 工程思维
255 03-21

11个AI答同一道题,7个不及格:谁在装聪明?

一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?

DeepSeek Claude 安全事件响应
366 03-21

Grok 3逻辑推理100分归零:5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分,仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷,引发对其推理能力的深度质疑。

Grok 3 逻辑推理 模型评测
326 03-21

GPT-4o崩了:工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢:代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码,GPT-4o竟然回答"代码本身没有明显的bug",暴露出其工程判断力的严重退化。

GPT-4o 编程能力 代码审查
247 03-21
1 2 3 4

© 1998-2026 赢政天下 All rights reserved.

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0