赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 DeepSeek R1 +10
最大回撤 GPT-4o -22.9
最新评测 2026-04-06 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 DeepSeek R1(+10)和 GPT-4o(-22.9)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+10
最大跌幅
GPT-4o
-22.9
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
Gemini 2.5 Pro
86.3 分
第二选择
豆包 Pro
84.7 分
第三选择
DeepSeek R1
80.9 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
豆包 Pro
48.8 分
第三选择
Grok 3
44 分
推荐第一
Grok 3
79.1 分
第二选择
豆包 Pro
78.1 分
第三选择
DeepSeek R1
76.9 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.9 分
推荐第一
豆包 Pro
45.8 分
第二选择
Claude Sonnet 4.6
45 分
第三选择
Claude Opus 4.6
44.9 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
411票通过!加拿大自由党限制儿童AI使用:保护or扼杀教育机会?
加拿大自由党以411-327票通过限制青少年和儿童访问AI的政策,旨在防范潜在伤害。但此举引发激烈辩论,支持者忧心心理风险,反对者指责限制教育。winzheng.com分析认为,这可能影响全球AI产业发展,呼吁平衡创新与保护。
资讯
OpenAI遭朝鲜黑客攻击:AI安全的国家级挑战
OpenAI披露其macOS版ChatGPT应用遭遇与朝鲜有关的供应链攻击事件,引发两极舆论。尽管用户数据未被访问,但事件凸显了AI行业面临的安全挑战和国家级威胁。我们深入分析此攻击背后的深层原因以及未来可能的防护措施。
资讯
OpenAI CEO住宅遭燃烧弹袭击:AI发展引发社会紧张情绪?
OpenAI CEO Sam Altman旧金山住宅遭遇燃烧弹袭击事件引发AI社区的广泛关注。尽管袭击动机尚未明确,但这一事件揭示了AI快速发展背后的社会紧张情绪,对公众情绪理解提供了重要视角。
资讯
Google AI搜索“空投”:一场只有信号弹没有坐标的战争,背后隐藏三大未解难题
Google最新宣布的AI搜索功能升级,更像是一次战略性的“信号空投”,而非具体的产品落地。本次公告在功能细节、技术实现和上线时间上均存在显著不确定性。这背后反映的并非技术不足,而是Google在应对竞争压力、解决AI固有技术难题(如幻觉)以及重塑自身核心商业模式这三大深层困境下的谨慎与挣扎。此举标志着搜索范式转移的必然趋势,但真正的革命远未到来。
资讯
OpenAI CEO回应家中遭袭与质疑报道
OpenAI首席执行官Sam Altman近日在其博客上回应了一起针对他住宅的袭击事件,以及《纽约客》一篇深入的报道,该报道对他的诚信提出了质疑。Altman在博文中详细阐述了他对这些事件的看法,并试图澄清有关他的误解。
资讯
互联网如何削弱了我们的辨别能力
随着人工智能生成的图像和受限的卫星数据出现,验证网络信息真实性的系统正面临挑战。互联网的快速发展和技术的进步,使得人们越来越难以分辨虚假信息与真实信息。这不仅影响了普通用户,也给专业验证机构带来了巨大压力。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab