赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Opus 4.6 +20
最大回撤 Grok 3 -86.5
最新评测 2026-04-20 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Opus 4.6(+20)和 Grok 3(-86.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Opus 4.6
+20
最大跌幅
Grok 3
-86.5
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
88.6 分
第二选择
DeepSeek V3
86.2 分
第三选择
Claude Opus 4.6
85.7 分
推荐第一
Claude Opus 4.6
46.3 分
第二选择
Claude Sonnet 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
豆包 Pro
80.8 分
第二选择
DeepSeek R1
76.6 分
第三选择
Gemini 2.5 Pro
76.4 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
94.9 分
第三选择
豆包 Pro
89.8 分
推荐第一
Grok 3
51.1 分
第二选择
豆包 Pro
46.9 分
第三选择
Claude Opus 4.6
45.2 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
Uber迈入资产优化新时代
欢迎回到TechCrunch Mobility,这里是您探索未来交通的首选平台,如今人工智能在其中扮演着越来越重要的角色。本文将探讨Uber如何通过资产优化策略,推动自身在全球出行市场中取得更大成功。
资讯
Palantir发文批判包容性与“倒退”文化
Palantir因与美国移民和海关执法局(ICE)的合作及其自我定位为“西方”捍卫者而受到更多关注。该公司最近发布了一篇小型宣言,公开批判包容性和所谓的“倒退”文化。这一举动引发了业界的广泛讨论,尤其是在当前企业文化多元化和包容性被普遍重视的背景下。
资讯
AI创业公司的12个月窗口期
许多AI初创公司之所以存在,部分原因是基础模型尚未扩展到它们的领域。然而,正如许多人半开玩笑地承认,这种情况不会永远持续下去。随着基础模型的快速发展,AI初创公司面临的竞争压力将不断增加,它们需要在有限的时间内找到自己的独特定位和竞争优势。
资讯
OpenAI的生存之道:最新收购能否解决难题?
在最新一期的Equity播客中,我们探讨了OpenAI的最新收购行动,以及这些举措是否能够解决公司面临的两个重大生存问题。OpenAI近年来在人工智能领域取得了显著进展,但也面临着技术和伦理方面的挑战。通过收购新公司,OpenAI希望在技术创新和商业化应用之间找到平衡。
资讯
Anthropic走进白宫:Mythos成关键
本月初,我们报道了Anthropic的Project Glasswing,这个项目因其潜在危险性而未公开发布。然而,事情有了新进展。上周五,Anthropic的CEO Dario Amodei在白宫西翼与幕僚长Susie Wiles会面,这一举动背后的推动力是Mythos。
资讯
中国科技员工培训AI替身引发思考
中国科技行业的员工们被要求训练人工智能代理以取代他们的工作,这一现象引发了本已热衷于技术创新的从业者们的深刻反思。本月初,一个名为Colleague Skill的GitHub项目声称,员工可以利用该项目“提炼”同事的技能和个性特征,并将其复制为AI版本,这一消息在业内引起了广泛关注。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab