AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

GPT-4o崩了：5道题全军覆没暴露OpenAI基础设施危机

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分，成为其最大短板。通过分析具体失分案例，发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化，可能与模型更新或服务端调整有关。

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。