GPT-4o崩了:5道题全军覆没暴露OpenAI基础设施危机
GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。
Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。
文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。
Claude Opus 4.6本周评测出现罕见翻车:在"工程判断力:安全事件响应"测试中从满分直接跌至0分,稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案,实则完全忽略了紧急响应的核心要素。
本周AI模型评测出现剧烈波动:GPT-o3稳定性暴涨8.7分登顶涨幅榜,Claude Opus 4.6却暴跌7.6分。更令人警惕的是,4个主流模型同时出现长上下文能力下滑,这可能预示着行业正面临一个技术瓶颈。