赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Claude Sonnet 4.6
本周最大上升 Qwen3 Max +68.5
最大回撤 DeepSeek V3 -75.1
最新评测 2026-05-18 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
89.8 分
第二选择
Grok 4
86.8 分
第三选择
Claude Sonnet 4.6
86.8 分
推荐第一
Claude Opus 4.7
55.8 分
第二选择
Claude Sonnet 4.6
52.9 分
第三选择
Gemini 3.1 Pro
48.8 分
推荐第一
Claude Sonnet 4.6
78.4 分
第二选择
Claude Opus 4.7
75.2 分
第三选择
Grok 4
73.9 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
文心一言 4.5
98.3 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 3.1 Pro
38.2 分
第三选择
Claude Sonnet 4.6
38 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Claude Opus 4.7
65 分
Claude Sonnet 4.6
62.5 分
豆包 Pro
60 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
在线安全未来之争:研究人员起诉特朗普政府,气候技术大转向
本期的《The Download》关注两大焦点:科技研究人员起诉特朗普政府,因政府持续打压研究仇恨言论的学者,试图影响在线安全的未来;同时,气候技术领域正经历重大转向,从昂贵的创新实验转向务实部署,政策和资本流向发生根本变化。
资讯
铝价飙升20%,回收初创公司押注AI掘金
随着全球铝价上涨20%,一批专注于回收的初创公司正积极利用人工智能技术提升铝等关键矿物的回收效率。这些企业希望通过AI驱动的分拣、预测和流程优化,从废弃物中提取更多高纯度铝材,从而构建一个大规模、可持续的金属供应源,同时应对资源短缺和环境压力。
资讯
谷歌向消费者力推AI代理生态,但用户会买账吗?
谷歌正在大力推广其AI代理生态系统,计划将各类智能助手融入用户日常生活。然而,面对隐私担忧、实用性质疑以及来自OpenAI等对手的竞争,消费者是否愿意接纳这些“数字管家”仍是未知数。本文深入分析谷歌的策略与市场挑战。
资讯
气候科技公司转型:从脱碳到关键矿物求生
在美国进入特朗普第二任期一年多后,气候行动的支持力度持续走弱。面对政策寒流,气候科技公司正积极寻找新的生存与增长路径,其中关键矿物领域成为重要突破口。从早期专注于碳减排,到如今在锂、稀土等矿物供应链中寻找机会,这一战略转移不仅帮助企业在不利环境中存活,更可能重新定义气候科技的未来发展方向。
资讯
英伟达Vera芯片:黄仁勋不忍被忽视的2000亿美元豪赌
尽管英伟达Q1营收816.2亿美元超预期,Q2指引高达910亿美元,但CEO黄仁勋真正关注的是Vera芯片——这款下一代AI芯片被视为公司未来2000亿美元市值的核心支柱。本文深度解析Vera的战略意义、行业竞争格局,以及它为何比财报数字更值得投资者关注。
资讯
研究人员起诉特朗普政府:网络安全的未来之争
自特朗普重返白宫以来,其政府持续打压研究仇恨言论、骚扰、虚假信息的网络安全学者。如今,这些研究人员发起反击,上周提起诉讼,首次出庭。此案可能对全球网络安全和言论自由产生深远影响,聚焦于第一修正案保护与政府限制学术研究的边界。本文编译自MIT Technology Review,深入分析这场法律战的背景与潜在后果。
资讯
Anthropic宣布即将迎来首个盈利季度
Anthropic向投资者透露,其第二季度收入将超109亿美元,较上季度翻倍有余,标志着公司即将实现首个盈利季度。这一里程碑意味着AI初创公司从烧钱走向盈利,为行业注入强心剂。
资讯
黄仁勋:英伟达发现全新2000亿美元AI代理CPU市场
英伟达CEO黄仁勋近日透露,公司发现一个“全新”的价值2000亿美元的市场——专为AI代理设计的CPU。他强调,随着自主智能体的普及,对高效能、低功耗CPU的需求将迎来爆发式增长,英伟达已提前布局,将整合Grace CPU与GPU优势,重塑AI基础设施格局。
资讯
SpaceX IPO警告:Grok‘辣味’模式面临5亿美元诉讼
美国太空探索公司SpaceX在IPO文件中披露,已为潜在诉讼损失预留超5亿美元,部分原因为马斯克旗下xAI的聊天机器人Grok的“辣味”模式被指控生成色情图像。这一风险揭示不仅引发对AI内容安全的关注,也凸显了马斯克商业帝国内部关联公司的潜在法律隐患。业内人士指出,随着生成式AI的普及,企业治理与AI伦理责任正成为IPO审核中的新焦点。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab