AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

GPT-4o崩了：工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢：代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码，GPT-4o竟然回答"代码本身没有明显的bug"，暴露出其工程判断力的严重退化。

文心4.0一行代码暴露致命缺陷：当AI连字典都不认识

文心一言4.0在最新评测中出现戏剧性崩盘：原本满分的Python字典推导题目直接跌至0分，输出结果暴露出模型对基础数据结构的理解出现严重混乱，稳定性评分暴跌3.7分。