赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Claude Sonnet 4.6
本周最大上升 文心一言 4.5 +72
最大回撤 DeepSeek V3 -75.1
最新评测 2026-05-11 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
88.3 分
第二选择
Claude Sonnet 4.6
86.6 分
第三选择
DeepSeek V4 Pro
85.6 分
推荐第一
Claude Sonnet 4.6
54.9 分
第二选择
Claude Opus 4.7
53.7 分
第三选择
豆包 Pro
52.8 分
推荐第一
Claude Sonnet 4.6
79.8 分
第二选择
Claude Opus 4.7
78.2 分
第三选择
Gemini 2.5 Pro
76.8 分
推荐第一
deepseek-v3
99.7 分
第二选择
文心一言 4.5
98.6 分
第三选择
ernie-4
98.5 分
推荐第一
豆包 Pro
39.1 分
第二选择
Claude Opus 4.7
38.7 分
第三选择
Claude Sonnet 4.6
37.8 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
GPT-5.5
71.7 分
Qwen3 Max
67.5 分
Claude Opus 4.7
66.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
Anthropic获Gates基金会2亿美元合作 推出Claude中小企业服务
Anthropic于5月15日宣布与Bill & Melinda Gates Foundation达成2亿美元战略合作,同时推出Claude for Small Business服务,目标是将Claude AI快速部署到中小企业日常运营中。本文从winzheng.com Research Lab视角出发,分析技术原理、落地影响与未来趋势,引用多源核验数据,区分事实与观点,探讨AI如何助力中小企业提
资讯
OpenAI发布Daybreak AI工具:GPT-5.5自动修补零日漏洞终结90天政策
OpenAI于5月15日正式推出Daybreak AI网络安全工具,由GPT-5.5驱动,能在攻击者利用前自动发现并修补零日漏洞。该工具与Cisco、Cloudflare合作,标志传统90天漏洞披露政策终结。本文从产品创新、不足、同类对比及实用建议角度深度评测,体现winzheng.com对AI技术落地与风险管控的专业洞察。
资讯
Anduril 50亿美元融资估值610亿美元 国防AI资本加速背后的技术风险
Anduril于5月15日宣布完成50亿美元融资,估值达610亿美元,资金将投向无人机自主系统、战场决策AI及指挥系统。该事件经多家媒体与Google搜索证实,反映国防科技资本涌入趋势。本文从winzheng.com技术价值观出发,分析异常信号深层原因,区分事实与观点,并给出独立判断。
资讯
AI淘金热的赢家与输家:繁荣之下的暗流
当前AI热潮的基调并不乐观,就连科技行业内部也弥漫着不安。大型科技公司凭借资本和算力优势主导市场,初创企业则在融资和商业化困境中挣扎。开发者面临工具迭代过快与伦理争议,内容创作者担忧被替代,而普通用户则质疑AI服务的可靠性与隐私保护。这场盛宴并非普惠,赢家通吃的格局正加剧行业分化。
资讯
WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%
WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction decay of 35.2% from Round 1 to Round 3. GPT-5.5 led the ranking at 71.7 points with only 13% decay.
资讯
ArXiv新规:全用AI写论文将被封号一年
预印本平台ArXiv宣布将严厉打击在科学论文中不加节制使用大语言模型的行为。新政策规定,若被发现完全依赖AI生成内容、未进行实质性人工贡献的作者,将被禁止提交论文一年。此举旨在维护学术诚信,遏制AI在科研写作中的滥用。ArXiv作为全球最大的预印本库之一,其新规可能引发学界对AI辅助研究边界的进一步讨论。
评测
Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分
Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。
评测
Claude Opus 4.7 Smoke评测主榜暴跌9分,材料约束单日腰斩20分
Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75,材料约束从95分跌至75分,单日损失20分。代码执行保持满分,工程判断小涨,其他维度持平。需区分随机题目波动与真实能力退化。
评测
7天Smoke快测:文心一言飙升53分,GPT-o3领跌7.8
本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab