赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Opus 4.6 +20
最大回撤 Grok 3 -86.5
最新评测 2026-04-20 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Opus 4.6(+20)和 Grok 3(-86.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Opus 4.6
+20
最大跌幅
Grok 3
-86.5
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
88.6 分
第二选择
DeepSeek V3
86.2 分
第三选择
Claude Opus 4.6
85.7 分
推荐第一
Claude Opus 4.6
46.3 分
第二选择
Claude Sonnet 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
豆包 Pro
80.8 分
第二选择
DeepSeek R1
76.6 分
第三选择
Gemini 2.5 Pro
76.4 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
94.9 分
第三选择
豆包 Pro
89.8 分
推荐第一
Grok 3
51.1 分
第二选择
豆包 Pro
46.9 分
第三选择
Claude Opus 4.6
45.2 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
Deezer揭示:AI生成音乐占比44%,多数流量造假
根据Deezer的最新数据,AI生成的音乐占新上传音乐的44%,但这些音乐在平台上的播放量仅占很小比例,且多数因欺诈行为被取消变现资格。这一现象引发了对音乐流媒体平台上AI内容真实性和经济价值的广泛讨论。
资讯
AI核电初创Fermi CEO与CFO突然离职
由前美国能源部长里克·佩里共同创立的AI核电初创公司Fermi近日遭遇高层动荡,CEO和CFO突然离职。该公司旨在利用人工智能技术推动核电创新,并在德克萨斯州建立AI园区,但面临诸多挑战,包括技术瓶颈、市场竞争和监管压力。这一事件引发业界对Fermi未来发展的担忧,同时凸显AI与能源行业融合的潜在风险与机遇。Fermi的愿景是通过AI优化核反应堆设计和运营效率,助力清洁能源转型,但高层变动可能影响其融资和项目推进。
资讯
NSA情报机构据称使用Anthropic Mythos AI,尽管与五角大楼争执
据TechCrunch报道,美国国家安全局(NSA)正在使用Anthropic公司开发的受限Mythos AI模型,这一举动引发了广泛关注。尽管NSA与五角大楼之间存在持续的摩擦,但该情报机构似乎绕过了相关限制,继续采用这一先进AI工具。Mythos作为Anthropic的核心AI模型,以其强大的自然语言处理能力和安全性著称。此次事件凸显了AI技术在情报领域的应用潜力,同时也引发了关于政府机构间协调以及AI伦理问题的讨论。报道指出,这一使用可能涉及高度机密的监控和数据分析任务,潜在地改变了现代情报工作的格局。
资讯
如何应对AI系统危机并进行修复
尽管人工智能为我们提供了许多可能性,但技术故障或安全漏洞的风险始终存在。根据ISACA的新研究,受访的大多数组织无法说明他们能多快应对AI系统紧急情况,甚至无法报告相关细节。
资讯
致命的“镜像”细菌与中国工人对抗AI替身
今天的《下载》为您呈现科技世界的每日动态。2019年2月,一群科学家提出了一项高风险、尖端且令人兴奋的想法,建议国家科学基金会资助研究一种合成镜像生命。虽然这一设想充满了科学探索的魅力,但也引发了人们对其潜在危险的担忧。与此同时,中国工人正在努力应对人工智能替身带来的挑战,试图在快速发展的技术浪潮中维护自身权益。
资讯
Prego推出家庭对话录音装置,保存珍贵记忆
意大利面酱品牌Prego与非营利组织StoryCorps合作,推出了一款专为餐桌对话设计的录音设备。这款设备旨在记录家庭成员之间的交流,并永久保存这些珍贵的记忆。这一创意不仅为家庭聚餐增添了趣味性,也为珍藏家庭历史提供了一种全新的方式。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab