赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值）豆包 Pro

本周最大上升 Claude Opus 4.6 +20

最大回撤 Grok 3 -86.5

最新评测 2026-04-20 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Opus 4.6（+20）和 Grok 3（-86.5）。超过 1 个标准差的变化才会标记为统计显著。

看完整变化报告

最大涨幅

Claude Opus 4.6
+20

最大跌幅

Grok 3
-86.5

事故报告

本周 0 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

88.6 分

第二选择

DeepSeek V3

86.2 分

第三选择

Claude Opus 4.6

85.7 分

推荐第一

Claude Opus 4.6

46.3 分

第二选择

Claude Sonnet 4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

豆包 Pro

80.8 分

第二选择

DeepSeek R1

76.6 分

第三选择

Gemini 2.5 Pro

76.4 分

推荐第一

DeepSeek V3

95.2 分

第二选择

文心一言 4.0

94.9 分

第三选择

豆包 Pro

89.8 分

推荐第一

Grok 3

51.1 分

第二选择

豆包 Pro

46.9 分

第三选择

Claude Opus 4.6

45.2 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

Deezer揭示：AI生成音乐占比44%，多数流量造假

资讯

AI核电初创Fermi CEO与CFO突然离职

由前美国能源部长里克·佩里共同创立的AI核电初创公司Fermi近日遭遇高层动荡，CEO和CFO突然离职。该公司旨在利用人工智能技术推动核电创新，并在德克萨斯州建立AI园区，但面临诸多挑战，包括技术瓶颈、市场竞争和监管压力。这一事件引发业界对Fermi未来发展的担忧，同时凸显AI与能源行业融合的潜在风险与机遇。Fermi的愿景是通过AI优化核反应堆设计和运营效率，助力清洁能源转型，但高层变动可能影响其融资和项目推进。

资讯

NSA情报机构据称使用Anthropic Mythos AI，尽管与五角大楼争执

据TechCrunch报道，美国国家安全局（NSA）正在使用Anthropic公司开发的受限Mythos AI模型，这一举动引发了广泛关注。尽管NSA与五角大楼之间存在持续的摩擦，但该情报机构似乎绕过了相关限制，继续采用这一先进AI工具。Mythos作为Anthropic的核心AI模型，以其强大的自然语言处理能力和安全性著称。此次事件凸显了AI技术在情报领域的应用潜力，同时也引发了关于政府机构间协调以及AI伦理问题的讨论。报道指出，这一使用可能涉及高度机密的监控和数据分析任务，潜在地改变了现代情报工作的格局。

资讯

如何应对AI系统危机并进行修复

尽管人工智能为我们提供了许多可能性，但技术故障或安全漏洞的风险始终存在。根据ISACA的新研究，受访的大多数组织无法说明他们能多快应对AI系统紧急情况，甚至无法报告相关细节。

资讯

致命的“镜像”细菌与中国工人对抗AI替身

今天的《下载》为您呈现科技世界的每日动态。2019年2月，一群科学家提出了一项高风险、尖端且令人兴奋的想法，建议国家科学基金会资助研究一种合成镜像生命。虽然这一设想充满了科学探索的魅力，但也引发了人们对其潜在危险的担忧。与此同时，中国工人正在努力应对人工智能替身带来的挑战，试图在快速发展的技术浪潮中维护自身权益。

资讯

Prego推出家庭对话录音装置，保存珍贵记忆

意大利面酱品牌Prego与非营利组织StoryCorps合作，推出了一款专为餐桌对话设计的录音设备。这款设备旨在记录家庭成员之间的交流，并永久保存这些珍贵的记忆。这一创意不仅为家庭聚餐增添了趣味性，也为珍藏家庭历史提供了一种全新的方式。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍