AI Reviews

Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.

🏠 Our Reviews LMSYS Chatbot Arena MLCommons Ars Technica

Winzheng Index

Gemini 2.5 Pro崩了：稳定性暴跌23分背后的工程判断力不足

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

winzheng.com

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

Winzheng Index

豆包Pro满分题归零：AI在真实安全事件中为何集体失声

豆包Pro在最新评测中遭遇戏剧性滑铁卢：原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景，为何会出现如此离谱的判断失误？原始回答暴露了什么深层问题？