赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名守约测试无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-04-27 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 价格

2 起事故

0 项变动

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

grok-3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

claude-opus-4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

grok-3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

claude-opus-4.6

79.7 分

推荐第一

deepseek-v3

99.7 分

第二选择

ernie-4

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

claude-opus-4.6

36.6 分

推荐第一

claude-opus-4.6

0 分

第二选择

Claude Sonnet 4.6

0 分

第三选择

deepseek-r1

0 分

Qwen3 Max

70 分

GPT-5.5

68.3 分

Claude Opus 4.7

66.7 分

按场景看完整推荐查看完整守约排行榜

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

评测

5大理由：守约能力将成为AI模型下一个核心指标，颠覆选型规则！

在AI能力趋同的时代，守约能力（模型遵守承诺的可靠性）将成为关键指标。欧盟AI法案和中国算法治理强调合规，赢政天下（winzheng.com）的YZ Index WDCD测试率先量化此维度。企业选型将从跑分转向可控性，预测1年内主流评测跟进。

评测

我们测试11款AI模型30道守约题，发现诚信率暴跌至55%！

赢政天下（winzheng.com）对11款主流AI模型进行30道守约测试，结果显示平均诚信率仅60%，R3阶段大幅下降。Qwen3-Max以66.67分领跑，揭示数据边界和安全合规是最脆弱环节，呼吁行业加强约束机制。

评测

揭秘AI排行榜5大骗局：99%不可信，YZ Index如何颠覆评测？

评测

AI供应商真假难辨：WDCD守约测试11大模型分数曝光，避开数据泄露雷区

企业部署AI的最大痛点不是性能，而是供应商承诺的数据隔离是否可靠。WDCD守约测试评估模型在压力下的守约能力，本文揭晓11大模型分数，并为金融/医疗行业提供选型建议，帮助CTO/CIO规避风险。

评测

5大技巧：用YZ Index开放数据主导AI技术选型，节省20%研发成本！

面向AI开发者，介绍如何利用赢政天下（winzheng.com）的YZ Index开放数据进行技术选型。通过API端点、对比页和嵌入Widget，轻松嵌入报告和方案中，实现数据驱动决策，节省成本。包含实际场景和步骤指导。

评测

赢政天下首页升级！5大功能变身AI情报终端，碾压行业资讯

赢政天下（winzheng.com）首页完成重大升级，从单一产品页转型为AI行业信息终端。新增Bloomberg式实时仪表盘、智能搜索等5大功能，定位中文版Bloomberg + The Information，帮助用户实时把握AI脉搏。

评测

AI模型对决：5维雷达图秒杀Claude Opus 4.7 vs GPT-5.5，谁主沉浮？

赢政天下（winzheng.com）上线AI模型对比工具：输入Claude Opus 4.7 vs GPT-5.5，即见五维雷达图、柱状对比、API价格及场景推荐。数据驱动，客观分析，帮助开发者选型，避免盲选陷阱。

评测

Grok 3 爆冷登顶86.88分！本周AI模型谁在崛起谁在滑坡？

本周YZ Index主榜揭晓：Grok 3以86.88分领跑，豆包 Pro紧随其后。分析上升下滑趋势，新晋模型表现抢眼，揭示AI行业激烈竞争。

评测

揭秘WDCD守约测试：3轮30题直击AI“失信”痛点，颠覆评测格局！

现有AI评测只测能力，却忽略守约可靠性。YZ Index的WDCD测试通过3轮设计和30道企业场景题，填补空白，透明判分揭示AI抗压与遗忘问题。深度解读其创新价值，帮助企业选可靠AI。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

1998

创立至今

持续运营

厂商赞助

完全独立

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型
我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

想看更深的拆解，再往下走

今天该用哪个 AI 模型我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍