AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8，降幅达23.7分。多项核心维度出现断崖式下跌，特别是性价比和稳定性分别下降54.1和52.2分，显示模型在版本更新后出现严重性能退化。