AI Reviews

Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.

🏠 Our Reviews LMSYS Chatbot Arena MLCommons Ars Technica

winzheng.com

SQL 严重失误：Claude Sonnet 4.6 从满分到零分的反思

在最新的评测中，Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注，本文将通过分析具体代码和可能原因，探讨模型在执行层面的潜在问题。

Winzheng Index

豆包Pro稳定性暴跌19.8分，同题不同答成最大软肋

赢政指数最新评测显示，豆包Pro稳定性从54.5分骤降至34.7分，跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性，同样的问题可能得到截然不同的答案，这对需要稳定输出的生产环境构成重大隐患。