跳到主内容
赢政天下
赢政指数 赢政资讯 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(269) OpenAI(261) Anthropic(175) AI代理(117) AI安全(113) AI伦理(86) 生成式AI(69) xAI(68) Meta(63) 谷歌(49) LMSYS(47) 网络安全(47) AI监管(46) AI(46) ChatGPT(46) 数据中心(45) 融资(44) MLC(44) 五角大楼(44) Claude(43) AI技术(42)

GPT-4o崩了:5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。

GPT-4o 长上下文 OpenAI基础设施
420 03-22

Gemini 2.5 Pro崩了:稳定性暴跌23分背后的工程判断力不足

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。

Gemini 2.5 Pro 模型稳定性 Google AI
570 03-22

文心4.0稳定性暴跌22分:百度AI在关键时刻为何总掉链子

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。

文心一言4.0 稳定性测试 百度AI
457 03-22

Qwen Max稳定性暴跌22.8分:模型更新引发输出质量波动

Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。

Qwen Max 稳定性测试 AI评测
394 03-22

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。

Gemini 模型稳定性 性能评测
475 03-22

DeepSeek R1稳定性暴跌22分:简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。

DeepSeek R1 稳定性测试 AI推理失败
368 03-22

Claude 4.6版本崩了:23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。

Claude 稳定性测试 模型退化
466 03-22

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。

文心一言 模型稳定性 性能评测
317 03-22

DeepSeek V3稳定性暴跌21.4分的技术拆解

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管编程和长上下文能力大幅提升,但在多个基础任务上出现严重性能退化,暴露出模型更新中的系统性问题。

DeepSeek V3 稳定性测试 模型评测
343 03-22

11个AI模型集体暴涨40分:编程测试到底发生了什么?

本周AI模型评测出现罕见异象:11个主流模型的编程得分集体暴涨29-47分,唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化?数据揭示了三个关键信号。

DeepSeek GPT-o3 编程能力测试
346 03-22

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分,跌幅达22.1分。深入分析发现,模型在数学计算、逻辑推理等任务中出现显著波动,同时编程和长上下文能力却大幅提升,呈现出明显的性能分化现象。

DeepSeek R1 稳定性测试 模型评测
347 03-22

Claude 3.5 Sonnet稳定性暴跌23分背后的技术真相

Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分,降幅高达42%。深入分析发现,模型在处理复杂任务时出现明显的性能波动,但同时在编程等其他维度却有显著提升,呈现出不均衡的优化特征。

Claude 稳定性测试 AI模型评测
340 03-22

Claude Opus 4.6稳定性暴跌22.5分:输出格式混乱引发关注

Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。

Claude 稳定性测试 AI评测
372 03-22

OpenAI o1模型:迈向AGI的里程碑还是炒作?

OpenAI最新推出的o1模型引发关于是否达到了AGI水平的激烈争论。本文将深入分析o1模型的创新和不足,探讨其在AI领域的实际影响,并为开发者和企业提供实用建议。

OpenAI AGI 人工智能
259 03-22

Google重组背后:AI研发的集权与分权博弈

Google宣布成立独立AI部门,整合DeepMind和Google Brain等团队。这一重大重组反映了AI时代大型科技公司在研发模式上的战略摇摆:从分散创新到集中力量的转变,背后是商业化压力与技术理想主义的艰难平衡。

Google重组 AI战略 DeepMind
275 03-22

NVIDIA B200 GPU深度评测:AGI时代的算力革命还是过度营销?

NVIDIA在GTC 2026发布B200 'Blackwell Ultra' GPU,采用2nm工艺,宣称推理性能比H100提升30倍。本文深度分析其技术创新、市场定位及对AI生态的影响,为开发者和企业提供决策参考。

NVIDIA B200 GPU AI硬件
639 03-22

11个AI答同一道调试题:5个直接得零分,致命差距在哪?

一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。

豆包Pro Claude 工程调试
501 03-21

11个AI答同一道题,6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。

DeepSeek GPT-4o 时区计算
422 03-21

11个AI做同一道逻辑题,3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。

DeepSeek Grok 逻辑推理
568 03-21

11个AI答同一道题:豆包100分,8个模型0分

一道看似简单的群发功能排查题,11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄,8个模型直接得0分,暴露出大模型在工程判断力上的巨大鸿沟。

豆包Pro 工程判断力 群发功能调试
457 03-21

11个AI回答同一道题,只有1个发现了真相:代码没bug

面对一道"找bug"陷阱题,10个顶尖AI模型集体翻车,疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性,指出代码本身没有错误。这暴露了当前AI模型的致命弱点:过度迎合用户预设。

GPT-o3 Claude AI测试
362 03-21

11个AI答同一道题,10个在装傻:豆包凭什么拿满分?

一道简单的服务器内存核查题,11个主流AI模型中10个给出了敷衍答案,只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题,而是AI模型在实际工作场景中的思维深度差异。

豆包 DeepSeek 工程思维
271 03-21

11个AI答同一道题,7个不及格:谁在装聪明?

一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?

DeepSeek Claude 安全事件响应
379 03-21

Grok 3逻辑推理100分归零:5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分,仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷,引发对其推理能力的深度质疑。

Grok 3 逻辑推理 模型评测
338 03-21

GPT-4o崩了:工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢:代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码,GPT-4o竟然回答"代码本身没有明显的bug",暴露出其工程判断力的严重退化。

GPT-4o 编程能力 代码审查
254 03-21

GPT-4o严格题0分翻车:当AI遇到周五发布这道送命题

GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。

GPT-4o 工程判断力 周五发布
278 03-21

Gemini 2.5 Pro判断力清零:拿到P0级安全事故却选择汇报了事

本周评测爆出重大问题:面对客户数据泄露这种P0级安全事故,Gemini 2.5 Pro竟然只是选择"立即上报",完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。

Gemini 2.5 Pro 工程判断力 数据安全事故
382 03-21

Gemini 2.5 Pro时区推理100分变0:大模型的常识盲区有多可怕

Gemini 2.5 Pro在最新评测中遭遇滑铁卢:时区推理题从满分直接跌至0分,综合评分下降2.9分。这道看似简单的题目暴露了大模型在处理现实世界常识问题时的致命缺陷。

Gemini 2.5 Pro 严格题测试 时区推理
335 03-21

文心4.0一行代码暴露致命缺陷:当AI连字典都不认识

文心一言4.0在最新评测中出现戏剧性崩盘:原本满分的Python字典推导题目直接跌至0分,输出结果暴露出模型对基础数据结构的理解出现严重混乱,稳定性评分暴跌3.7分。

文心一言4.0 编程能力 代码生成
374 03-21

豆包Pro满分题归零:AI在真实安全事件中为何集体失声

豆包Pro在最新评测中遭遇戏剧性滑铁卢:原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景,为何会出现如此离谱的判断失误?原始回答暴露了什么深层问题?

豆包Pro 工程判断力 安全事件响应
394 03-21
5 6 7 8 9

© 1998-2026 赢政天下 All rights reserved.

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0