GPT-o3 - AI资讯 | 赢政天下

GPT-o3崩了：31分暴跌背后的致命缺陷

GPT-o3本周可用性暴跌31分，从满分跌至69分。长上下文能力崩盘33.5分，稳定性下降25分。编程能力虽提升23分，但在关键生产场景的表现令人担忧。这不是普通的性能波动，而是架构级的系统性问题。

GPT-o3本周稳定性暴跌25分，可用性从100%跌至69%，长上下文能力崩塌33.5分。深度分析显示，这不是简单的性能波动，而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景，华丽的benchmark分数瞬间现形。

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

本周AI模型评测出现罕见异象：11个主流模型的编程得分集体暴涨29-47分，唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化？数据揭示了三个关键信号。

面对一道"找bug"陷阱题，10个顶尖AI模型集体翻车，疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性，指出代码本身没有错误。这暴露了当前AI模型的致命弱点：过度迎合用户预设。

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。

本周GPT-o3在知识工作维度出现罕见的断崖式下跌，从82.4分骤降至70.3分，降幅达14.7%。这一异常变化主要集中在逻辑推理和翻译任务上，值得深入分析。核心问题：逻辑推理能力显著退化最严重的失分项是"排班冲突"题目，得分从满分100直接跌至10分。该题要求根据5个员工的时间限制安排一周...

本周GPT-o3在知识工作维度出现严重性能退化，得分从82.4分骤降至70.3分，降幅达12.1分。这一异常表现集中体现在逻辑推理和语言理解两个核心能力上，引发了对模型稳定性的深度担忧。逻辑推理能力严重退化最典型的案例是"排班冲突"题目，GPT-o3的得分从满分100直接跌至10分。...