赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Opus 4.6 +10
最新评测 2026-04-13 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化:Claude Opus 4.6 上升 10 分。
看完整变化报告
最大涨幅
Claude Opus 4.6
+10
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
84.9 分
第二选择
Gemini 2.5 Pro
83.1 分
第三选择
DeepSeek R1
82.5 分
推荐第一
豆包 Pro
48 分
第二选择
Claude Opus 4.6
45.2 分
第三选择
Grok 3
45.2 分
推荐第一
Grok 3
75.4 分
第二选择
豆包 Pro
72.4 分
第三选择
DeepSeek R1
72.1 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.7 分
推荐第一
豆包 Pro
46.1 分
第二选择
Claude Sonnet 4.6
45.2 分
第三选择
Claude Opus 4.6
44.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
Google 新一代 TPU v6 发布:性能提升 4.7 倍(4.7X),能耗降低67% 以上
Google 推出新一代 TPU v6,性能对比 TPU v5e:峰值计算性能提升 4.7 倍(4.7X),训练性能整体提升超过 4 倍(部分模型如 Gemma 2-27B、Llama2-70B 等实测超 4 倍),推理吞吐量提升最高 3 倍,能效(能耗相关):67% 以上更节能(over 67% more energy-efficient),即相同工作负载下能耗大幅降低(远超 15%)。同时还把高带宽内存(HBM)容量和带宽都翻了一倍,芯片间互联带宽也翻倍。尽管行业对其在 AI 基础设施领域的潜力持乐观态度,但具体应用效果和与竞争对手的对比仍需观察。
资讯
MiniMax开源M2.7模型:性能被认可,许可条款引争议
MiniMax公司开源了229B参数的M2.7模型,其在多个基准测试中表现优异。然而,许可条款的争议引起技术社区的广泛讨论。尽管性能受到认可,商业使用授权费用等不确定性仍需观察。
资讯
Anthropic推迟Mythos模型发布:AI安全与创新的两难抉择
Anthropic因网络安全顾虑推迟Mythos模型发布,美国官员已向银行发出警告。此举引发业界对AI安全与创新平衡的深思,体现了负责任的AI开发理念。
资讯
斯坦福报告揭示AI专家与大众认知差距扩大
斯坦福最新的AI指数显示,AI专家与公众之间的认知差距正在扩大,尤其是在就业、医疗和经济领域引发了越来越多的焦虑。报告指出,尽管AI技术快速发展,但公众对其潜在影响的担忧日益加剧,特别是其对未来工作岗位的威胁、医疗系统的变革以及整体经济结构的冲击。专家们认为,公众的这些担忧需要通过更好的沟通和教育来解决,以帮助社会更好地适应AI时代的到来。
资讯
微软开发新型企业级安全代理
微软正在研发一款类似OpenClaw的新型代理程序,专为企业客户设计,将提供比开源OpenClaw代理更高的安全控制。此举旨在满足企业对数据安全和隐私的更高要求,同时提升软件的可控性和可靠性。
资讯
阿里巴巴推出4370美元人形机器人
Unitree的最新人形机器人R1即将登陆国际市场,以4370美元的价格吸引消费者。R1具备一定的体操能力,定位为入门级产品。然而,这款机器人的实际用途仍是个悬而未决的问题。尽管如此,Unitree的这一举措无疑将引发公众对家庭机器人的广泛关注。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab