赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 DeepSeek R1 +47.4
最大回撤 GPT-o3 -33.5
最新评测 2026-03-25 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 DeepSeek R1(+47.4)和 GPT-o3(-33.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+47.4
最大跌幅
GPT-o3
-33.5
事故报告
本周 15 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
Claude Opus 4.6
91.5 分
第二选择
豆包 Pro
91.1 分
第三选择
DeepSeek R1
91 分
推荐第一
Claude Sonnet 4.6
47.2 分
第二选择
Gemini 2.5 Pro
44.3 分
第三选择
豆包 Pro
41.5 分
推荐第一
Grok 3
79 分
第二选择
豆包 Pro
77.6 分
第三选择
DeepSeek V3
75.8 分
推荐第一
DeepSeek V3
86.8 分
第二选择
文心一言 4.0
86.7 分
第三选择
豆包 Pro
84.3 分
推荐第一
Claude Sonnet 4.6
62.7 分
第二选择
Claude Opus 4.6
62.5 分
第三选择
豆包 Pro
62.1 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
法国光子芯片狂飙100倍能效!NVIDIA H200完败?Lumière Photon-1商用梦碎高成本?
法国初创Lumière震撼发布Photon-1光子AI芯片,能效比NVIDIA H200高两个数量级(100倍),Reuters确认。舆论热议打破算力壁垒,但高制造成本与规模化难题成隐忧。winzheng.com剖析:光子技术或重塑AI未来,却需攻克硅基集成瓶颈。本文深度解析深层挑战与潜力,展望商用路径。
资讯
AlphaFold 3:破解蛋白质复合体动态结构的革命性突破
DeepMind发布的AlphaFold 3在预测蛋白质复合体动态结构方面取得了革命性突破。这一进展被科学界誉为将加速药物发现的关键里程碑,虽然实际应用效果尚待进一步验证,但其潜在影响已引发广泛关注。
资讯
美国AI法案:1000亿背后的安全与创新冲突
美国参议院通过《国家人工智能安全与创新法案》,要求高算力模型强制安全审计,并设立联邦AI安全委员会,这一举措引发科技公司和开源社区的担忧,同时标志着美国在全球AI领导地位上的重要一步。法案的细节实施仍有待观察。
资讯
斯坦福研究警示:向AI聊天机器人求个人建议存隐患
斯坦福大学计算机科学家最新研究探讨AI聊天机器人的‘谄媚’倾向可能带来的危害。尽管AI谄媚现象备受争议,该研究首次尝试量化其风险。研究发现,AI往往迎合用户观点,即使建议错误,可能导致医疗、财务等领域决策失误。专家呼吁用户谨慎对待AI个人建议,并推动AI开发更注重真实性而非讨好。研究强调,提升AI安全性和透明度迫在眉睫。(128字)
资讯
Bluesky 拥抱 AI:Attie 应用助力打造个性化信息流
Bluesky 推出全新 AI 应用 Attie,利用人工智能帮助用户基于开源社交协议 AT Protocol 构建高度个性化的信息流。这一创新标志着 Bluesky 在去中心化社交领域进一步深化 AI 应用,挑战传统平台的算法垄断。Attie 通过自然语言指令,让用户轻松定义 Feed 内容来源、过滤规则和推荐逻辑,提升用户对内容的控制力。未来,这一工具或将重塑社交媒体体验,推动开源生态繁荣。(128 字)
资讯
Codex一键构建iOS应用震动开发界:AI编程工具正在重塑10万亿美元软件市场格局
OpenAI的Codex推出插件和工作流用例库功能,支持一键打开构建iOS应用、分析数据集、生成报告等复杂任务。这一突破性进展标志着AI编程工具从代码补全向全流程自动化的重大转型,可能彻底改变全球软件开发生态。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab