赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-04-27 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化：文心一言 4.0 上升 15 分。

看完整变化报告

最大涨幅

文心一言 4.0
+15

事故报告

本周 2 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

Grok 3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

Claude Opus 4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

Grok 3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

Claude Opus 4.6

79.7 分

推荐第一

DeepSeek V3

99.7 分

第二选择

文心一言 4.0

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

Claude Opus 4.6

36.6 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

初创公司新工具让LLM调试如探囊取物

旧金山初创公司Goodfire发布名为Silico的新工具，允许研究人员和工程师在训练期间深入AI模型内部，调整其参数——即决定模型行为的设置。这为模型制造商提供了前所未有的精细控制能力，改变了以往对AI技术构建方式的认知。Goodfire声称Silico能显著提升模型的可解释性和可靠性。

资讯

Salesforce让客户主导AI路线图：众包企业需求

Salesforce正采用一种创新的产品开发策略：让客户主导其AI路线图。公司认为，如果一个企业客户面临某个问题，其他客户很可能也有类似需求。通过建立客户咨询委员会、收集反馈和优先处理高频需求，Salesforce将AI功能开发从内部决策转向众包模式，以更快响应市场变化并提高产品相关性。

资讯

Stripe推出Link数字钱包，AI代理也能自主支付

资讯

OpenAI推出高级安全模式，保护高危账户

OpenAI宣布为其ChatGPT和Codex等账户推出高级安全模式，旨在防护针对高风险用户的钓鱼攻击。该功能通过多因素认证和行为分析增强账户安全，尤其适用于记者、活动家等易受攻击人群。业内分析认为，此举反映了AI服务在隐私与安全方面的进化趋势，但也可能引发用户体验与安全性的平衡讨论。

资讯

马斯克宣誓下承认xAI使用OpenAI模型训练

在法庭宣誓作证时，埃隆·马斯克承认其AI公司xAI使用了OpenAI的模型进行训练。他辩称，这是AI实验室的普遍做法，即利用竞争对手的模型来提升自身技术。这一言论引发了对AI行业竞争与知识产权边界的广泛讨论。

资讯

谷歌Gemini AI助手即将登陆数百万车辆

谷歌宣布将从5月起向搭载Google内置系统的汽车逐步推送Gemini AI助手，取代现有的Google Assistant。这一升级旨在为驾驶体验带来更先进、更自然的对话式AI交互。紧随通用汽车此前宣布将整合Gemini的消息，谷歌此举标志着AI助手在车载领域的竞争进一步升温。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍