赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) DeepSeek V3
本周最大上升 Claude Sonnet 4.6 +5
最大回撤 GPT-4o -18.7
最新评测 2026-03-30 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Sonnet 4.6(+5)和 GPT-4o(-18.7)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Sonnet 4.6
+5
最大跌幅
GPT-4o
-18.7
事故报告
本周 2 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
90.6 分
第二选择
DeepSeek V3
90.5 分
第三选择
Claude Sonnet 4.6
88 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
Grok 3
48.8 分
第三选择
Claude Sonnet 4.6
46 分
推荐第一
Grok 3
79.2 分
第二选择
DeepSeek R1
79 分
第三选择
DeepSeek V3
78.3 分
推荐第一
DeepSeek V3
91.1 分
第二选择
文心一言 4.0
90.9 分
第三选择
豆包 Pro
87 分
推荐第一
Claude Sonnet 4.6
54.3 分
第二选择
豆包 Pro
53.9 分
第三选择
Claude Opus 4.6
53.9 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
日本机器人不抢饭碗,而是填补无人愿做的岗位
受劳动力短缺驱动,日本正将物理AI机器人从试点项目推向实际部署。这些机器人主要针对护理、农业和危险作业等无人问津的岗位,帮助缓解老龄化社会的劳动力危机。日本企业如丰田和软银正加速创新,结合AI视觉和自主导航技术,实现高效应用。这不仅解决了人口问题,还为全球机器人产业提供了借鉴。(128字)
资讯
轨道数据中心能否为SpaceX天价估值正名?
TechCrunch《Equity》播客最新一期探讨了埃隆·马斯克的太空数据中心愿景。这一大胆构想旨在利用轨道上的无限太阳能和真空冷却解决地球数据中心瓶颈,或将为SpaceX的巨额估值提供新支撑。但专家们辩论激烈:技术可行性、发射成本与网络延迟等挑战重重。文章分析太空计算潜力,结合行业背景,审视其对AI时代的影响。(128字)
资讯
东京500万人大停电!富士通AI电网系统级联崩溃,股价暴跌引发全球AI安全大讨论
日本AI电网系统发生重大故障,导致东京地区500万人遭遇大停电。富士通开发的AI预测系统出现级联失败,股价应声暴跌,引发全国对关键基础设施部署AI安全性的紧急辩论。
资讯
美国参议院通过首个AI监管法案:高风险AI系统必须接受强制审计,科技巨头合规成本或飙升10倍
美国参议院以微弱优势通过《国家人工智能安全法》,要求高风险AI系统部署前必须通过第三方安全审计,并将成立AI安全监督局。科技公司担忧合规成本激增,而民权组织认为这是保护公众利益的关键一步。
资讯
OpenAI宣称GPT-7接近AGI引发激辩:技术突破还是危险炒作?
OpenAI CEO Sam Altman在X平台宣称GPT-7接近AGI引发科技界激烈争议。支持者认为这标志着AI新时代来临,反对者担忧失控风险。主流媒体跟进报道"AGI威胁论",但GPT-7的技术细节尚未公开,AGI定义标准仍存争议。
资讯
Anthropic:Claude Code用户使用OpenClaw需额外付费
Anthropic宣布,Claude Code订阅用户在使用OpenClaw及其他第三方工具时,将需额外付费。这项变化将提高编码助手的整体使用成本,引发开发者社区关注。随着AI编码工具竞争加剧,此举反映了Anthropic在平衡创新与盈利间的策略调整。Claude Code作为Anthropic的核心产品,正面临GitHub Copilot等强劲对手,额外收费或旨在覆盖高昂的计算资源支出,同时推动生态系统发展。(128字)

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab