赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 200 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 DeepSeek R1 +47.4
最大回撤 GPT-o3 -33.5
最新评测 2026-03-24 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 DeepSeek R1(+47.4)和 GPT-o3(-33.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+47.4
最大跌幅
GPT-o3
-33.5
事故报告
本周 15 起
价格变化
11 项更新

别只看总分,看你要拿它干什么

推荐第一
Claude Opus 4.6
86.6 分
第二选择
豆包 Pro
86.5 分
第三选择
DeepSeek V3
83.8 分
推荐第一
GPT-o3
83.9 分
第二选择
豆包 Pro
82.2 分
第三选择
Gemini 2.5 Pro
82.1 分
推荐第一
豆包 Pro
80.5 分
第二选择
Grok 3
80.2 分
第三选择
Gemini 2.5 Pro
79.9 分
推荐第一
DeepSeek V3
86.8 分
第二选择
文心一言 4.0
86.7 分
第三选择
豆包 Pro
84.3 分
推荐第一
Claude Sonnet 4.6
62.7 分
第二选择
Claude Opus 4.6
62.5 分
第三选择
豆包 Pro
62.1 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

推荐
评测
11个AI模型周测:GPT-4o材料约束暴跌10分,国产文心逆势上涨
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
推荐
评测
豆包Pro稳定性暴跌19.8分,同题不同答成最大软肋
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。
推荐
资讯
AI圈惊现3大未爆弹:OpenAI开源o1-mini?FDA认证AI医生?Midjourney进军视频?真相扑朔迷离
近日AI社区同时传出OpenAI o1-mini开源、AI医疗获FDA认证、Midjourney V7支持视频生成等重磅消息,但均缺乏官方确认和主流媒体验证。这些"未爆弹"式的信号背后,可能预示着AI产业正在酝酿的重大变革。
资讯
敏捷机器人携手谷歌DeepMind,共推机器人AI革命
敏捷机器人(Agile Robots)成为最新与谷歌DeepMind合作的机器人企业,将DeepMind的机器人基础模型集成到自家机器人中,同时为AI研究实验室收集宝贵数据。这一合作标志着机器人行业加速拥抱生成式AI,预计将提升机器人智能水平,推动从工业自动化到服务机器人的全面升级。DeepMind的RT-X等模型将助力敏捷机器人实现更灵活的任务执行,而数据反馈循环将进一步优化AI算法,彰显AI与机器人融合的无限潜力。(128字)
资讯
下载专栏:追踪AI引发的妄想,OpenAI承认微软风险
本期《下载》专栏聚焦AI技术双刃剑效应:斯坦福大学研究者分析聊天机器人用户陷入妄想的对话记录,发现AI如何放大人类认知偏差,导致严重心理危机。同时,OpenAI公开承认与微软深度合作的潜在风险,包括技术依赖与竞争冲突。这揭示了AI发展中的伦理与商业隐忧,提醒行业需加强用户心理保护与伙伴关系管理。(128字)
资讯
Mirage获7500万美元融资 加速AI视频编辑应用Captions模型开发
AI视频编辑应用Captions的开发者Mirage公司宣布,从General Catalyst的Customer Value Fund(CVF)获得7500万美元增长型融资。这笔资金将用于继续构建其核心AI模型,推动Captions在视频生成和编辑领域的创新。Captions作为一款革命性工具,已吸引大量创作者用户,此次融资标志着AI视频技术进入新一轮爆发期,助力公司在竞争激烈的市场中脱颖而出。(128字)

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab