AI Reviews

Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.

🏠 Our Reviews LMSYS Chatbot Arena MLCommons Ars Technica

winzheng.com

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8，降幅达23.7分。多项核心维度出现断崖式下跌，特别是性价比和稳定性分别下降54.1和52.2分，显示模型在版本更新后出现严重性能退化。

Winzheng Index

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

Winzheng Index

GPT-4o崩了：35分暴跌背后的严格模式陷阱

GPT-4o本周可用性暴跌35分，在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动"，它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。

Winzheng Index

GPT-4o崩了：5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

Winzheng Index

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

Winzheng Index

GPT-4o崩了：工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢：代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码，GPT-4o竟然回答"代码本身没有明显的bug"，暴露出其工程判断力的严重退化。

Winzheng Index

GPT-4o严格题0分翻车：当AI遇到周五发布这道送命题

GPT-4o在"周五发布决策"严格题上从满分跌至0分，暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时，GPT-4o给出了教科书式的错误答案。