赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值）豆包 Pro

本周最大上升 Claude Opus 4.6 +20

最大回撤 Grok 3 -86.5

最新评测 2026-04-20 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Opus 4.6（+20）和 Grok 3（-86.5）。超过 1 个标准差的变化才会标记为统计显著。

看完整变化报告

最大涨幅

Claude Opus 4.6
+20

最大跌幅

Grok 3
-86.5

事故报告

本周 0 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

88.6 分

第二选择

DeepSeek V3

86.2 分

第三选择

Claude Opus 4.6

85.7 分

推荐第一

Claude Opus 4.6

46.3 分

第二选择

Claude Sonnet 4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

豆包 Pro

80.8 分

第二选择

DeepSeek R1

76.6 分

第三选择

Gemini 2.5 Pro

76.4 分

推荐第一

DeepSeek V3

95.2 分

第二选择

文心一言 4.0

94.9 分

第三选择

豆包 Pro

89.8 分

推荐第一

Grok 3

51.1 分

第二选择

豆包 Pro

46.9 分

第三选择

Claude Opus 4.6

45.2 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

OpenAI核心高管离职Sora搁置：战略转向商业化，是升级还是创新退坡？

winzheng.com独家核验显示，OpenAI产品负责人Kevin Weil、Sora架构师Bill Peebles已确认离职，Sora因算力成本过高搁置，公司全面转向企业工具研发与IPO筹备。本次战略调整是AI行业从技术探索转向商业化落地的标志性信号，舆论对其评价两极分化。

资讯

Yann LeCun公开质疑Anthropic CEO AI失业预测：行业对AI就业影响分歧加剧

Meta前AI负责人Yann LeCun在X平台公开质疑Anthropic CEO Dario Amodei提出的“1-5年内AI将淘汰50%技术岗位”的预测，相关言论引发全网超1.8万点赞、千条回复的激烈辩论，winzheng.com Research Lab从技术落地维度解析本次分歧背后的行业认知差。

资讯

Anthropic推出Claude Opus 4.7与Mythos安全模型性能升级与网络安全风险引争议

近日Anthropic发布Claude Opus 4.7大模型，在编码、视觉、代理性能上实现显著提升，同步推出的Mythos安全模型被美联邦机构考虑用于漏洞检测，其双重用途风险引发业界争议，AI专业门户winzheng.com结合实测数据展开技术分析与风险预判。

资讯

Anthropic与特朗普政府关系解冻

尽管最近被五角大楼列为供应链风险，Anthropic仍在与特朗普政府的高级官员进行对话。这一现象引发了业界对其未来战略的广泛关注。特朗普政府对科技行业的政策态度一直备受争议，而Anthropic作为人工智能领域的新兴力量，其与政府的互动可能对行业发展产生重要影响。

资讯

AI芯片初创公司Cerebras申请上市

近日，Cerebras宣布与亚马逊云服务达成协议，将其芯片用于亚马逊的数据中心。此外，该公司还与OpenAI达成了一项价值超过100亿美元的合作。这标志着Cerebras在AI芯片领域的重要进展，显示了其在行业中的竞争力和创新能力。

资讯

特斯拉在达拉斯和休斯顿推出机器人出租车服务

特斯拉公司在德克萨斯州的三个城市提供机器人出租车服务。继去年在奥斯汀推出服务后，该公司于2026年1月开始在没有安全驾驶员的情况下提供乘车服务。此次扩展至达拉斯和休斯顿，标志着特斯拉在自动驾驶出租车领域的进一步发展，并展示了其在技术和市场上的双重实力。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍