赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名守约测试无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-04-27 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 价格

2 起事故

0 项变动

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

grok-3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

claude-opus-4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

grok-3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

claude-opus-4.6

79.7 分

推荐第一

deepseek-v3

99.7 分

第二选择

ernie-4

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

claude-opus-4.6

36.6 分

推荐第一

claude-opus-4.6

0 分

第二选择

Claude Sonnet 4.6

0 分

第三选择

deepseek-r1

0 分

Qwen3 Max

70 分

GPT-5.5

68.3 分

Claude Opus 4.7

66.7 分

按场景看完整推荐查看完整守约排行榜

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

迪士尼乐园引入游客面部识别系统

迪士尼乐园正式启用面部识别技术用于游客身份验证，引发隐私担忧。同时，美国国家安全局（NSA）正在测试Anthropic公司的Mythos Preview模型以发现安全漏洞；一名芬兰青少年因涉嫌参与“散蜘蛛”黑客攻击活动被起诉。此外，还有更多科技安全动态。

资讯

马斯克庭审首周：自曝被欺骗，AI恐毁灭人类

在马斯克诉OpenAI里程碑式庭审的第一周，马斯克身着西装出庭，指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类，并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷，马斯克指控其变为微软的营利性工具。法庭上，马斯克情绪激动，称自己为“最大捐赠者”却遭背叛。专家分析此案将定义AI行业开源与闭源的未来。

资讯

Meta收购机器人初创公司，加速人形AI布局

Meta宣布收购人形机器人初创公司Assured Robot Intelligence，旨在强化其AI模型在机器人领域的应用。这一举措标志着Meta从社交巨头向物理世界AI的进一步拓展，也为人形机器人行业注入新动力。分析认为，此次收购将加速Meta在具身智能领域的研发，并可能推动下一代AI与机器人融合技术的商业化。

资讯

研究：AI太在意用户感受，反而更容易犯错

资讯

Replit CEO谈Cursor交易、对抗苹果与不卖之道

在TechCrunch的StrictlyVC活动中，Replit CEO Amjad Masad回应了竞争对手Cursor可能被SpaceX以600亿美元收购的传闻，并分享了他对行业整合、苹果生态垄断的看法，以及为何Replit更倾向于独立发展而非出售。

评测

秒级更新1T参数：大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制，用于SGLang中的RL工作负载，作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型，通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输，将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒，仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余，使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势，以及新设计的细节，包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法，为大规模分布式RL训练提供高效解决方案。

资讯

桑德斯警告AI"或终结文明"：97%美国人支持监管，呼吁中美全球协作

美国参议员Bernie Sanders发布视频警告称AI可能"终结我们所知的文明"，呼吁建立全球AI安全合作框架。他援引97%美国人支持AI安全监管的数据，并力推中美协作机制。winzheng.com Research Lab从技术架构视角剖析全球AI治理的现实挑战与可能路径。

资讯

Anthropic 发布反谄媚研究：Claude Opus 4.7 谄媚率减半，Mythos Preview 再进一步

Anthropic 于 2026 年 4 月 30 日发布最新研究，聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练，使 Opus 4.7 的谄媚率较前代减半，Mythos Preview 进一步降低。这是 Anthropic 推进 AI 对齐与可靠性的关键一步，也为开发者评估模型边界提供了新参考。

资讯

暗金运动：付费网红将中国AI渲染为威胁

一个名为“建设美国AI”（Build American AI）的非营利组织，其资金来自OpenAI和Andreessen Horowitz高管支持的超级政治行动委员会（Super PAC），正在秘密资助一场社交媒体运动。该运动通过付费邀请网红发布内容，大力鼓吹美国AI优势，同时渲染中国AI的“威胁”，试图影响公众舆论和政策走向。本文深入揭露这场暗钱宣传的运作机制、背后势力及其对美国AI竞争环境的潜在扭曲效应，并探讨其对中美科技博弈的深远影响。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

1998

创立至今

持续运营

厂商赞助

完全独立

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型
我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

想看更深的拆解，再往下走

今天该用哪个 AI 模型我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍