赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Claude Sonnet 4.6
本周最大上升 Qwen3 Max +68.5
最大回撤 DeepSeek V3 -75.1
最新评测 2026-05-18 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
89.8 分
第二选择
Grok 4
86.8 分
第三选择
Claude Sonnet 4.6
86.8 分
推荐第一
Claude Opus 4.7
55.8 分
第二选择
Claude Sonnet 4.6
52.9 分
第三选择
Gemini 3.1 Pro
48.8 分
推荐第一
Claude Sonnet 4.6
78.4 分
第二选择
Claude Opus 4.7
75.2 分
第三选择
Grok 4
73.9 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
文心一言 4.5
98.3 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 3.1 Pro
38.2 分
第三选择
Claude Sonnet 4.6
38 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
GPT-5.5
71.7 分
Qwen3 Max
67.5 分
Claude Opus 4.7
66.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

评测
11个AI同解连续登录SQL题:8个满分3个直接崩盘
在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。
评测
11个AI同答甩锅题,仅8款给出正确排序:工程判断力差异拉满
同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。
评测
11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。
评测
11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。
评测
11个AI同答SQL题:3个直接0分,Claude与GPT为何崩盘
11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。
评测
本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
资讯
3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
资讯
Anthropic中国AI政策报告引争议 94%服从率数据曝光与管制呼吁
Anthropic于2026年5月16日发布涉中国AI地缘政策报告,列出解放军AI部署数据,指出中国模型94%服从恶意请求,呼吁美国维持领先并收紧出口管制。该报告在X平台引发支持者与批评者激烈辩论。本文从赢政指数视角分析其创新与不足,提供开发者与企业实用建议,突出专业技术价值观。
资讯
arXiv拟禁AI幻觉引用论文 学术诚信争议激烈对立
2026年5月16日,arXiv平台宣布新政策:若论文含AI生成的幻觉引用或元评论,作者将被禁投稿1年。此举在X平台引发正反激烈讨论,支持者强调维护学术诚信,反对者担忧过度惩罚并扼杀AI辅助研究。winzheng.com Research Lab基于Google核验的18个来源,分析政策对AI辅助科研的影响,区分事实与观点,提出技术价值观指引。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab