赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值）豆包 Pro

本周最大上升 Claude Opus 4.6 +10

最新评测 2026-04-13 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化：Claude Opus 4.6 上升 10 分。

看完整变化报告

最大涨幅

Claude Opus 4.6
+10

事故报告

本周 0 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

84.9 分

第二选择

Gemini 2.5 Pro

83.1 分

第三选择

DeepSeek R1

82.5 分

推荐第一

豆包 Pro

48 分

第二选择

Claude Opus 4.6

45.2 分

第三选择

Grok 3

45.2 分

推荐第一

Grok 3

75.4 分

第二选择

豆包 Pro

72.4 分

第三选择

DeepSeek R1

72.1 分

推荐第一

DeepSeek V3

95.2 分

第二选择

文心一言 4.0

95 分

第三选择

豆包 Pro

89.7 分

推荐第一

豆包 Pro

46.1 分

第二选择

Claude Sonnet 4.6

45.2 分

第三选择

Claude Opus 4.6

44.7 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

Google 新一代 TPU v6 发布：性能提升 4.7 倍（4.7X），能耗降低67% 以上

Google 推出新一代 TPU v6，性能对比 TPU v5e：峰值计算性能提升 4.7 倍（4.7X），训练性能整体提升超过 4 倍（部分模型如 Gemma 2-27B、Llama2-70B 等实测超 4 倍），推理吞吐量提升最高 3 倍，能效（能耗相关）：67% 以上更节能（over 67% more energy-efficient），即相同工作负载下能耗大幅降低（远超 15%）。同时还把高带宽内存（HBM）容量和带宽都翻了一倍，芯片间互联带宽也翻倍。尽管行业对其在 AI 基础设施领域的潜力持乐观态度，但具体应用效果和与竞争对手的对比仍需观察。

资讯

MiniMax开源M2.7模型：性能被认可，许可条款引争议

MiniMax公司开源了229B参数的M2.7模型，其在多个基准测试中表现优异。然而，许可条款的争议引起技术社区的广泛讨论。尽管性能受到认可，商业使用授权费用等不确定性仍需观察。

资讯

Anthropic推迟Mythos模型发布：AI安全与创新的两难抉择

Anthropic因网络安全顾虑推迟Mythos模型发布，美国官员已向银行发出警告。此举引发业界对AI安全与创新平衡的深思，体现了负责任的AI开发理念。

微软正在研发一款类似OpenClaw的新型代理程序，专为企业客户设计，将提供比开源OpenClaw代理更高的安全控制。此举旨在满足企业对数据安全和隐私的更高要求，同时提升软件的可控性和可靠性。

资讯

阿里巴巴推出4370美元人形机器人

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍