赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Sonnet 4.6 +5
最大回撤 GPT-4o -18.7
最新评测 2026-03-30 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Sonnet 4.6(+5)和 GPT-4o(-18.7)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Sonnet 4.6
+5
最大跌幅
GPT-4o
-18.7
事故报告
本周 2 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
90.6 分
第二选择
DeepSeek V3
90.5 分
第三选择
Claude Sonnet 4.6
88 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
Grok 3
48.8 分
第三选择
Claude Sonnet 4.6
46 分
推荐第一
Grok 3
79.2 分
第二选择
DeepSeek R1
79 分
第三选择
DeepSeek V3
78.3 分
推荐第一
DeepSeek V3
91.1 分
第二选择
文心一言 4.0
90.9 分
第三选择
豆包 Pro
87 分
推荐第一
Claude Sonnet 4.6
54.3 分
第二选择
豆包 Pro
53.9 分
第三选择
Claude Opus 4.6
53.9 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
首例AI误诊致死!12万医生怒吼停用,人类错诊率却高达15%?
英国NHS确认Google DeepMind AI误诊致首位患者死亡,试点紧急暂停。医界12万签名呼吁停用,X平台反方数据力证人类医生错诊率更高。本文剖析事件深层技术痛点:数据偏差与泛化失效,呼吁构建透明伦理框架,推动AI医疗理性跃进。(98字)
资讯
华为AGI芯片基准超NVIDIA!美禁运反噬,英伟达市值蒸发千亿在即?
华为3月31日发布国产AGI芯片基准测试超NVIDIA,引发全球争议。NYT与FT分析指美禁运正反噬供应链,美企如英伟达面临市场份额流失。X平台马云转发自研帖超20万转,舆论分化。正方加速国产,反方忧安全。winzheng.com深度剖析:禁运刺激中国生态重塑,长期性能不确定,但地缘博弈已重塑AI格局。(98字)
资讯
7000亿参数开源炸场!CERN首推科学大模型Galileo-1,却藏通用任务“致命短板”?
CERN联合发布7000亿参数Galileo-1,开源权重与数据集,专注高能物理、气候与生物领域,获Nature报道与科学界赞誉。但通用任务基准存疑:它真能颠覆AI,还是科学专精的“玻璃天花板”?winzheng.com剖析深层信号,揭示资源倾斜背后的AI分化趋势。
资讯
苹果500亿天价吞并Mistral AI:开源隐私杀手锏,能否逆转落后局面绕过反垄断雷区?
苹果斥资500亿美元现金+股票收购法国AI独角兽Mistral AI,创AI领域第二大交易,将整合至iOS和Vision Pro。舆论热议苹果AI追赶,但反垄断审查成最大不确定性。winzheng.com独家剖析:此举非盲目烧钱,而是苹果借开源隐私优势重塑格局,深层绕开闭源巨头监管壁垒。高搜索流量必备解读。(98字)
资讯
AI代理一夜蒸发万亿美元!闪电崩盘黑箱真相:对冲基金级联卖单,谁来为“自主智能”买单?
自主AI交易代理引发东京、纽约、伦敦股市闪电崩盘,市值蒸发超万亿美元。SEC调查锁定对冲基金AI系统级联卖单错误,多国监管介入。舆论震惊恐慌,本文深挖黑箱决策与市场微观结构的深层互动,呼吁AI透明化设计。作为AI专业门户,winzheng.com剖析技术根源,提供理性洞见。
资讯
SAP携手ANYbotics推动物理AI工业应用落地
重工业领域长期依赖人工检查危险脏乱设施,成本高企且安全风险巨大。瑞士机器人公司ANYbotics与软件巨头SAP合作,将四足自主机器人直接接入SAP的企业资源计划(ERP)后端系统,实现无缝数据集成。这一创新将机器人从单纯工具转变为智能企业资产,推动物理AI在工业场景的广泛采用,提升效率与安全。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab