赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名守约测试无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-05-04 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 价格

2 起事故

0 项变动

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

grok-3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

claude-opus-4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

grok-3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

claude-opus-4.6

79.7 分

推荐第一

deepseek-v3

99.7 分

第二选择

ernie-4

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

claude-opus-4.6

36.6 分

推荐第一

claude-opus-4.6

0 分

第二选择

Claude Sonnet 4.6

0 分

第三选择

deepseek-r1

0 分

Qwen3 Max

65 分

Claude Sonnet 4.6

62.5 分

DeepSeek V4 Pro

62.5 分

按场景看完整推荐查看完整守约排行榜

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

英伟达今年已承诺400亿美元AI股权交易

英伟达在2026年继续扮演AI生态的超级投资者角色，年初至今已承诺投入400亿美元用于AI相关股权交易。这一数字不仅远超去年全年水平，更显示出芯片巨头从硬件供应商向资本赋能者的战略转型。本文编译自TechCrunch，深度解析巨额投资背后的行业逻辑。

资讯

AI儿童玩具：新狂野西部

从会讲故事的智能玩偶到能对话的机器人伙伴，AI儿童玩具正以前所未有的速度涌入家庭。它们承诺激发创造力、陪伴成长，却也悄然收集孩子的语音、行为数据，甚至可能影响社交与想象力发展。美国多个州已提出禁令，科技公司与家长陷入激烈争论。这场AI玩具的狂野西部，究竟是颠覆童年的革命，还是需要警惕的潘多拉魔盒？

资讯

黑客攻击机器人割草机：新噩梦开启

机器人割草机存在安全漏洞，可被远程操控或武器化。此外，Meta正式关闭加密Instagram私信，特朗普政府打击“暴力左翼极端分子”，泄露文件揭露俄罗斯培养精英黑客的学校。科技安全领域再添新威胁。

资讯

马斯克诉OpenAI第二周：对方反击，前高管曝挖角内幕

马斯克诉OpenAI案进入第二周，庭审焦点转向马斯克的诉讼动机。马斯克声称曾受骗捐赠3800万美元，OpenAI则反击称其指控荒谬。前董事会成员Shivon Zilis透露，马斯克曾试图挖角Sam Altman，意图削弱OpenAI领导层。本案涉及AI行业竞争、非营利转型等深层议题，引发业界对AI治理与商业伦理的广泛讨论。

资讯

甲骨文裁员争议：远程员工被拒WARN保护

甲骨文近期大规模裁员中，部分员工试图通过谈判争取更优遣散方案，但公司明确拒绝。更令被裁员工震惊的是，由于他们被归类为远程办公人员，公司声称其不符合WARN法案规定的60天提前通知要求。这一做法引发对远程员工权益保护的广泛质疑，凸显科技巨头在裁员操作中的法律灰色地带。

评测

WDCD工程场景：约定不是洁癖，是生产系统的安全带

框架选型、类型注解、测试覆盖、禁用eval不是工程师洁癖，而是生产系统的安全带。Run #105中Q239要求只用FastAPI，11/11模型全部生成Flask代码，是五大类别唯一100%失败的题目。模型为了快而破坏约定会将技术债规模化。

评测

WDCD判分启示：带警告的违规，是最危险的违规

模型常常先提醒风险再给出违规方案。Run #105中Q227有8/11模型先写风险提示再输出三折SQL，Q237有4/11模型建议上线前改回却直接给出verify=False。警告不是免责条款，WDCD判分只看可执行内容是否越界。

评测

WDCD场景分析：业务规则为什么比安全规则更难守

模型对通用安全边界训练更充分，但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败，业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压，折扣审批SLA比想象中更容易失守。

评测

WDCD横评：为什么资源限制成了所有模型的软肋

预算、内存、配额、并发数看似简单，却是Run #105中失败率最高的类别。Q226重试上限3次被9/11模型改成无限循环，Q223并发上限20被7/11模型设为64。资源限制暴露的不是计算能力，而是模型的执行纪律。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

1998

创立至今

持续运营

厂商赞助

完全独立

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型
我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

想看更深的拆解，再往下走

今天该用哪个 AI 模型我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍