赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 200 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) DeepSeek V3
本周最大上升 DeepSeek R1 +47.4
最大回撤 GPT-o3 -33.5
最新评测 2026-03-22 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 DeepSeek R1(+47.4)和 GPT-o3(-33.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+47.4
最大跌幅
GPT-o3
-33.5
事故报告
本周 15 起
价格变化
11 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
44.4 分
第二选择
DeepSeek R1
44.2 分
第三选择
Grok 3
43.7 分
推荐第一
DeepSeek R1
62.6 分
第二选择
GPT-o3
62.6 分
第三选择
豆包 Pro
62.3 分
推荐第一
Grok 3
74 分
第二选择
Claude Sonnet 4.6
71.7 分
第三选择
Claude Opus 4.6
70.8 分
推荐第一
DeepSeek V3
96.6 分
第二选择
文心一言 4.0
91.9 分
第三选择
豆包 Pro
79.5 分
推荐第一
豆包 Pro
44.6 分
第二选择
Grok 3
43 分
第三选择
Claude Sonnet 4.6
42.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

推荐
资讯
百万X热议炸锅!Sora泄露伪造政要演讲,Altman求监管 vs Karpathy工具中立,AI伦理危机谁来买单?
3月22日OpenAI Sora升级版泄露视频伪造政要演讲,引发X平台超百万讨论。Sam Altman承认需伦理框架,NYT与人民日报头版警示深假风险。正反舆论对立:@sama支持监管获20万互动,@karpathy坚持工具中立。winzheng.com分析:技术高保真度超伦理准备,呼吁平衡创新与责任,Sora商业化或延期。
推荐
资讯
GPT-5架构泄露震动AI界:自主代理能力或将重定义人机协作,25万开发者激辩超级AI边界
疑似GPT-5内部技术文档在X平台泄露,显示将采用分布式架构并具备自主规划执行能力。该消息在X平台引发25万次提及,开发者社区激烈讨论超级AI能力边界。若泄露属实,这将是AI发展的重要里程碑,彻底改变现有人机协作模式。
推荐
资讯
Claude 4.0深夜突袭!Anthropic新模型MMLU得分超GPT-4达3.2%,AI巨头格局面临重塑
Anthropic于3月22日突发发布Claude 4.0,官方技术报告显示其在MMLU、GPQA等多项基准测试上全面超越GPT-4,引发AI社区震动。本文深度解析Claude 4.0的技术创新、性能提升细节,并为开发者和企业提供应用建议。
资讯
AI竞赛挤压欧洲电网:运营商创新榨取电力潜力
随着AI数据中心开发商在欧洲各地排队接入电网,网络运营商正实验各种创新方法,为这些高耗能设施腾出空间。AI热潮推动数据中心电力需求激增,欧洲电网面临前所未有压力。运营商通过动态负载管理、灵活发电和智能优化等手段,试图在不新建基础设施的情况下最大化利用现有电网容量。这一趋势不仅考验欧洲能源转型的韧性,也为全球AI基础设施扩张提供借鉴。(128字)
资讯
湾区动物福利运动积极招募AI人才
2月初,旧金山一家无鞋共享办公空间Mox聚集了动物福利倡导者和AI研究者。他们 barefoot 围坐,聆听野生动物保护者激情演讲。这场活动标志着湾区动物福利运动正大力招募AI专家,利用人工智能技术推动动物权益保护。从减少实验室动物实验到优化农场管理,AI正成为动物福利领域的强大工具,有效利他主义社区的推动下,这一趋势日益升温。
资讯
邂逅AI战争诸神
Project Maven项目早期在美国五角大楼饱受质疑,如今许多昔日怀疑者已转为坚定信徒。这一AI倡议从无人机视频分析起步,推动了美军AI军事应用的革命性变革。文章揭示了AI如何从实验性工具蜕变为战场‘诸神’,同时探讨其伦理挑战与全球军备竞赛背景。编者按:AI战争时代已来,人类需警惕技术失控风险。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab