AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4.7 以 67.50 分稳居榜首，但整体守约能力呈现明显的周期性退化信号。

Winzheng Index

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

winzheng.com

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。