GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

2026年03月22日 447 阅读 - 阅读来源: Winzheng Index

GPT-o3 长上下文 API限流模型稳定性性能暴跌

当你的AI助手连续5次告诉你"请等待632毫秒后重试"，你就知道出大事了。这不是科幻小说，而是本周GPT-o3在长上下文评测中的真实遭遇。

赢政天下最新一期AI模型评测结果让人大跌眼镜：GPT-o3的长上下文得分从62.3分直接崩到28.8分，暴跌33.5分。更离谱的是，5道核心题目全部因为同一个原因失败——API限流。

让我们看看这些失败的题目：根因判断与证据边界、Breaking Changes清单、客户迁移风险评估、费用变化计算、高质量增长分析。每一道都是考察模型处理复杂长文本能力的关键题目，结果全部返回了这样的错误信息：

Rate limit reached for gpt-4o in organization org-5kL87cAHHWwzzzRXfZoA5jZm on tokens per min (TPM): Limit 30000, Used 29516, Requested 800.

注意这个细节：30000 token的限制，已使用29516，请求800。这意味着GPT-o3连800个token的余量都处理不了。

表面上看，这是一个简单的API限流问题。但深入分析原始日志，我们发现了更严重的问题：

这暴露出OpenAI在基础设施层面的三个致命缺陷：

第一，token计算机制存在严重bug。当使用量接近限制时（98.4%），系统无法准确预判剩余容量，导致正常请求被拒绝。

第二，限流策略过于激进。在企业级API服务中，当使用量接近限制时应该有缓冲机制，而不是直接拒绝服务。

第三，错误恢复机制形同虚设。重试时间的随机性说明系统根本没有合理的排队机制。

更讽刺的是，就在上周，OpenAI还在大肆宣传GPT-o3的长上下文处理能力。现在看来，当你真的需要处理长文本时，它可能连门都进不去。

这次事故揭示了一个残酷的真相：模型能力再强，如果基础设施跟不上，一切都是空谈。特别是在需要处理大量token的长上下文场景下，API的稳定性比模型本身的能力更加关键。

从评测数据看，GPT-o3的稳定性得分从53.0跌到28.0，可用性从100%跌到69%。这意味着在实际使用中，每3次调用就可能有1次失败。对于任何严肃的商业应用来说，这样的可用性是完全不可接受的。

这次事故不是偶然。过去几个月，OpenAI的API服务频繁出现各种问题：响应延迟、服务中断、限流异常。每次都是小修小补，从未真正解决根本问题。

原因很简单：OpenAI把太多资源投入到了模型训练上，却忽视了服务基础设施的建设。当用户量指数级增长时，这些技术债务就会集中爆发。

有意思的是，在编程能力测试中，GPT-o3的得分反而提升了23.2分。这说明模型本身的能力没有问题，问题出在了交付层面。这就像你买了一辆法拉利，却发现车钥匙经常失灵。

对于正在使用或计划使用GPT-o3的开发者，这次事故提供了几个重要教训：

当AI巨头连基本的API稳定性都保证不了时，我们是否该重新思考对"先进AI"的定义？在追求更大参数、更强能力的同时，是不是该先把基础设施这门必修课补上？

下次当OpenAI发布新模型时，比起参数量和benchmark分数，我更关心的是：它能稳定运行多久不出错？毕竟，一个时灵时不灵的天才，还不如一个稳定可靠的普通人。