AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

Grok 3 稳定性暴跌 22.5 分：当 AI 遇到真实工程场景就露馅了

Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分，在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分，但遇到真实故障场景时的表现令人担忧。

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

一道看似简单的群发功能排查题，11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄，8个模型直接得0分，暴露出大模型在工程判断力上的巨大鸿沟。

面对一道"找bug"陷阱题，10个顶尖AI模型集体翻车，疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性，指出代码本身没有错误。这暴露了当前AI模型的致命弱点：过度迎合用户预设。

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

GPT-4o在"周五发布决策"严格题上从满分跌至0分，暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时，GPT-4o给出了教科书式的错误答案。

本周评测爆出重大问题：面对客户数据泄露这种P0级安全事故，Gemini 2.5 Pro竟然只是选择"立即上报"，完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。

Gemini 2.5 Pro在最新评测中遭遇滑铁卢：时区推理题从满分直接跌至0分，综合评分下降2.9分。这道看似简单的题目暴露了大模型在处理现实世界常识问题时的致命缺陷。

豆包Pro在最新评测中遭遇戏剧性滑铁卢：原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景，为何会出现如此离谱的判断失误？原始回答暴露了什么深层问题？

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。