赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-04-27 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化：文心一言 4.0 上升 15 分。

看完整变化报告

最大涨幅

文心一言 4.0
+15

事故报告

本周 2 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

Grok 3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

Claude Opus 4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

Grok 3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

Claude Opus 4.6

79.7 分

推荐第一

DeepSeek V3

99.7 分

第二选择

文心一言 4.0

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

Claude Opus 4.6

36.6 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

推荐

资讯

OpenAI CEO Sam Altman遭4.7k点赞围攻：不诚实挖角与安全失守的伦理危机？

DogeDesigner在X上汇总了对OpenAI CEO Sam Altman的指控，包括不诚实行为、挖角员工和优先利润而非安全。这些基于报道和内部人士的说法，引发广泛讨论，帖子获4.7k点赞，质疑其领导力与AI伦理。OpenAI作为AI巨头，此事凸显行业领导伦理辩论。

推荐

资讯

AI机器人占据互联网流量超50%：数字革命还是基础设施危机？

推荐

资讯

AI融资狂潮背后：万亿估值是技术突破还是资本幻觉？

Anthropic达到1万亿美元估值创下AI融资纪录，引发市场对AI公司估值合理性的激烈讨论。本文深入分析这一异常信号背后的资本逻辑与技术现实之间的巨大鸿沟。

推荐

资讯

DeepSeek发布1.6万亿参数开源模型支持华为芯片，API定价仅为GPT-4的1/20引发全球AI价格战

DeepSeek推出V4系列开源模型，最大参数达1.6万亿，支持100万token上下文，采用MIT许可证。模型兼容华为Ascend芯片，API定价约为国际主流模型的1/20，标志着中国在构建独立AI技术栈方面取得重大突破，并引发全球AI服务价格战。

推荐

资讯

OpenAI发布GPT-5.5 'SPUD'：从对话AI向自主代理转型，多步骤任务达人类水平85%

OpenAI发布GPT-5.5 'SPUD'模型，专注于代理性能力，在多步骤工作流程中达到人类水平的85%。这标志着AI从回答问题向自主完成任务的关键转变，将深刻影响企业AI应用方式。

推荐

资讯

OpenAI联手高通开发AI手机：2028年量产挑战iPhone，用AI代理取代App生态

据分析师Ming-Chi Kuo透露，OpenAI正与高通、联发科和Luxshare合作开发定制AI手机，计划2028年量产。该设备将运行自主操作系统，用AI代理替代传统应用，被视为直接挑战苹果和谷歌操作系统霸权的重大举措。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍