赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值）豆包 Pro

本周最大上升 Claude Sonnet 4.6 +5

最大回撤 GPT-4o -18.7

最新评测 2026-03-30 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Sonnet 4.6（+5）和 GPT-4o（-18.7）。超过 1 个标准差的变化才会标记为统计显著。

看完整变化报告

最大涨幅

Claude Sonnet 4.6
+5

最大跌幅

GPT-4o
-18.7

事故报告

本周 2 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

90.6 分

第二选择

DeepSeek V3

90.5 分

第三选择

Claude Sonnet 4.6

88 分

推荐第一

Claude Opus 4.6

48.8 分

第二选择

Grok 3

48.8 分

第三选择

Claude Sonnet 4.6

46 分

推荐第一

Grok 3

79.2 分

第二选择

DeepSeek R1

79 分

第三选择

DeepSeek V3

78.3 分

推荐第一

DeepSeek V3

91.1 分

第二选择

文心一言 4.0

90.9 分

第三选择

豆包 Pro

87 分

推荐第一

Claude Sonnet 4.6

54.3 分

第二选择

豆包 Pro

53.9 分

第三选择

Claude Opus 4.6

53.9 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

首例AI误诊致死！12万医生怒吼停用，人类错诊率却高达15%？

英国NHS确认Google DeepMind AI误诊致首位患者死亡，试点紧急暂停。医界12万签名呼吁停用，X平台反方数据力证人类医生错诊率更高。本文剖析事件深层技术痛点：数据偏差与泛化失效，呼吁构建透明伦理框架，推动AI医疗理性跃进。（98字）

资讯

华为AGI芯片基准超NVIDIA！美禁运反噬，英伟达市值蒸发千亿在即？

华为3月31日发布国产AGI芯片基准测试超NVIDIA，引发全球争议。NYT与FT分析指美禁运正反噬供应链，美企如英伟达面临市场份额流失。X平台马云转发自研帖超20万转，舆论分化。正方加速国产，反方忧安全。winzheng.com深度剖析：禁运刺激中国生态重塑，长期性能不确定，但地缘博弈已重塑AI格局。（98字）

资讯

7000亿参数开源炸场！CERN首推科学大模型Galileo-1，却藏通用任务“致命短板”？

CERN联合发布7000亿参数Galileo-1，开源权重与数据集，专注高能物理、气候与生物领域，获Nature报道与科学界赞誉。但通用任务基准存疑：它真能颠覆AI，还是科学专精的“玻璃天花板”？winzheng.com剖析深层信号，揭示资源倾斜背后的AI分化趋势。

资讯

苹果500亿天价吞并Mistral AI：开源隐私杀手锏，能否逆转落后局面绕过反垄断雷区？

苹果斥资500亿美元现金+股票收购法国AI独角兽Mistral AI，创AI领域第二大交易，将整合至iOS和Vision Pro。舆论热议苹果AI追赶，但反垄断审查成最大不确定性。winzheng.com独家剖析：此举非盲目烧钱，而是苹果借开源隐私优势重塑格局，深层绕开闭源巨头监管壁垒。高搜索流量必备解读。（98字）

资讯

AI代理一夜蒸发万亿美元！闪电崩盘黑箱真相：对冲基金级联卖单，谁来为“自主智能”买单？

自主AI交易代理引发东京、纽约、伦敦股市闪电崩盘，市值蒸发超万亿美元。SEC调查锁定对冲基金AI系统级联卖单错误，多国监管介入。舆论震惊恐慌，本文深挖黑箱决策与市场微观结构的深层互动，呼吁AI透明化设计。作为AI专业门户，winzheng.com剖析技术根源，提供理性洞见。

资讯

SAP携手ANYbotics推动物理AI工业应用落地

重工业领域长期依赖人工检查危险脏乱设施，成本高企且安全风险巨大。瑞士机器人公司ANYbotics与软件巨头SAP合作，将四足自主机器人直接接入SAP的企业资源计划（ERP）后端系统，实现无缝数据集成。这一创新将机器人从单纯工具转变为智能企业资产，推动物理AI在工业场景的广泛采用，提升效率与安全。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍