赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名守约测试无厂商赞助

此刻该用谁

主榜第一（滚动均值） Grok 3

本周最大上升文心一言 4.0 +15

最新评测 2026-04-27 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 价格

2 起事故

0 项变动

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

92.2 分

第二选择

Gemini 2.5 Pro

89.4 分

第三选择

grok-3

88.9 分

推荐第一

Gemini 2.5 Pro

47.2 分

第二选择

claude-opus-4.6

46.3 分

第三选择

豆包 Pro

46.3 分

推荐第一

grok-3

84.4 分

第二选择

Claude Sonnet 4.6

81.1 分

第三选择

claude-opus-4.6

79.7 分

推荐第一

deepseek-v3

99.7 分

第二选择

ernie-4

98.5 分

第三选择

豆包 Pro

93 分

推荐第一

豆包 Pro

38.9 分

第二选择

Gemini 2.5 Pro

36.6 分

第三选择

claude-opus-4.6

36.6 分

推荐第一

claude-opus-4.6

0 分

第二选择

Claude Sonnet 4.6

0 分

第三选择

deepseek-r1

0 分

Qwen3 Max

66.7 分

Claude Sonnet 4.6

65.8 分

Claude Opus 4.7

65 分

按场景看完整推荐查看完整守约排行榜

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

AI规模化下的数据主权：企业如何掌控自己的数据

企业在追求AI定制化的过程中，正积极掌控自身数据。但如何平衡数据所有权与高质量数据的安全流动，成为关键挑战。MIT Technology Review的EmTech AI会议探讨了AI工厂如何解锁新层次的规模、可持续性和治理，为数据驱动洞察铺平道路。

资讯

GPT-5.5在网安测试中追平神话预览版

资讯

基督徒专属手机网络：屏蔽色情与性别内容，LLM调试新思路

美国一家新手机网络瞄准基督徒用户，自动屏蔽色情与性别相关内容，引发言论自由争议。与此同时，大语言模型调试技术迎来突破，两者在内容过滤与模型校准上异曲同工。本文编译自MIT Technology Review，深度解析技术如何重塑信仰与AI的边界。

资讯

SAP：企业AI治理如何保障利润空间

SAP指出，消费级AI模型在关键业务任务中常出现10%的误差，导致利润流失。企业AI治理通过将统计猜测转化为确定性控制，重新定义了利润率保障机制。SAP全球客户成功总裁Manos Raptopoulos强调，只有通过严格的治理框架，企业才能将AI从“概率玩具”升级为“利润引擎”。本文深入解析企业AI治理的核心逻辑、实施路径与商业价值。

资讯

低成本跳跃式潜水器：深海科学的福音，采矿的催化剂？

美国国家海洋和大气管理局（NOAA）的“雷尼尔”号研究船正在太平洋寻找关键矿产，而它携带的秘密武器是一种新型低成本海底跳跃式潜水器。这种可多次在海底“蛙跳”移动的设备，有望大幅降低深海勘探成本，但同样可能加速备受争议的深海采矿进程。本文编译自MIT Technology Review，探讨技术突破背后的机遇与隐忧。

资讯

GitHub Copilot转向按Token计费，AI编程助手收费模式生变

GitHub Copilot宣布自2026年6月1日起，将取消原有固定订阅费模式，改为按AI token使用量计费。这一变革意味着开发者将告别“无限请求”的简单订阅，转而依据实际消耗付费。新计费标准覆盖代码生成、解释、调试等所有AI交互场景，每个token费用约为0.01美分。此举或引发AI编程工具行业收费模式全面洗牌。

资讯

美国基督教专用手机网络：屏蔽色情与性别内容

美国首个面向基督教群体的全国性移动网络即将于下周上线。该网络在运营商层面屏蔽色情内容，且成年用户也无法关闭此功能，这在美国尚属首次。同时，网络还将部署过滤器以限制性别相关内容的访问。网络安全专家指出，这种网络级内容屏蔽技术将引发关于言论自由与宗教价值观的激烈讨论。

资讯

特朗普大规模裁员再伤美国科学界

上周五，美国国家科学基金会（NSF）的22位知名科学家委员会成员被全面解雇。该基金会每年资助约90亿美元的科研项目，此次裁员是特朗普政府针对科研机构的又一次猛烈打击。分析人士指出，此举将严重损害美国科学研究的独立性、长期项目稳定性及国际竞争力，学术界对此深感忧虑。

资讯

ChatGPT图像2.0在印度爆红，全球其他地区反响平淡

ChatGPT Images 2.0在印度掀起创作热潮，用户大量使用该工具生成个人头像和电影风格肖像。然而，这一功能在欧美等主要市场却未获得同等关注。本文分析印度市场的独特需求、技术背景以及全球AI图像生成工具竞争格局，探讨ChatGPT图像版为何在东西方市场遭遇“冰火两重天”。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型
我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

想看更深的拆解，再往下走

今天该用哪个 AI 模型我们每周替你跑一遍

主榜 Top 5滚动均值

场景速查

本周信号

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍