AIレビュー

実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。

🏠 自社レビュー LMSYS Chatbot Arena MLCommons Ars Technica

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。