评测阵容换血:GPT-5.5、Claude Opus 4.7、DeepSeek V4 等 7 款新模型上线
赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Grok 3
本周最大上升 文心一言 4.0 +15
最新评测 2026-04-27 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化:文心一言 4.0 上升 15 分。
看完整变化报告
最大涨幅
文心一言 4.0
+15
事故报告
本周 2 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Qwen3 Max
66.7 分
Claude Sonnet 4.6
65.8 分
Claude Opus 4.7
65 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
美国基督教专用手机网络:屏蔽色情与性别内容
美国首个面向基督教群体的全国性移动网络即将于下周上线。该网络在运营商层面屏蔽色情内容,且成年用户也无法关闭此功能,这在美国尚属首次。同时,网络还将部署过滤器以限制性别相关内容的访问。网络安全专家指出,这种网络级内容屏蔽技术将引发关于言论自由与宗教价值观的激烈讨论。
资讯
特朗普大规模裁员再伤美国科学界
上周五,美国国家科学基金会(NSF)的22位知名科学家委员会成员被全面解雇。该基金会每年资助约90亿美元的科研项目,此次裁员是特朗普政府针对科研机构的又一次猛烈打击。分析人士指出,此举将严重损害美国科学研究的独立性、长期项目稳定性及国际竞争力,学术界对此深感忧虑。
资讯
ChatGPT图像2.0在印度爆红,全球其他地区反响平淡
ChatGPT Images 2.0在印度掀起创作热潮,用户大量使用该工具生成个人头像和电影风格肖像。然而,这一功能在欧美等主要市场却未获得同等关注。本文分析印度市场的独特需求、技术背景以及全球AI图像生成工具竞争格局,探讨ChatGPT图像版为何在东西方市场遭遇“冰火两重天”。
资讯
马斯克与OpenAI的隐秘桥梁:四个孩子母亲的中介角色
法庭披露的新证据揭示了希冯·齐里斯(Shivon Zilis)如何在埃隆·马斯克与OpenAI之间充当关键中间人。作为马斯克四个孩子的母亲,齐里斯同时身兼Neuralink高管,在马斯克与OpenAI的激烈博弈中扮演了微妙而复杂的角色。这些信息来自近期庭审中曝光的内部消息记录,展现了科技巨头与其初创公司之间不为人知的权力运作。
资讯
苹果惊讶于AI驱动Mac需求激增,供应持续紧张
苹果公司承认,AI计算需求的爆发式增长远超预期,导致Mac mini、Mac Studio和Mac Neo在下一季度仍将面临供应限制。这一局面不仅反映了AI工作负载对高性能硬件的渴求,也暴露出苹果在供应链规划上的滞后。本文编译自TechCrunch。
资讯
未来数月Mac Mini恐难买到
苹果CEO蒂姆·库克在最新财报电话会议上透露,AI的采用速度远超预期,直接导致Mac Mini需求激增,供应短缺预计将持续数月。本文编译自WIRED,剖析这场由人工智能引发的硬件短缺现象及其背后行业格局。
资讯
融资倒计时:Anthropic两周内或达9000亿美元估值
据知情人士透露,AI公司Anthropic正要求投资者在48小时内提交最新一轮融资的认购额度,估值可能超过9000亿美元。这一数字不仅将刷新AI领域融资纪录,也反映出市场对基础模型公司商业前景的极端乐观。本文深入分析融资背景、行业竞争与估值合理性。
资讯
赢政指数评测换血:GPT-5.5、Claude Opus 4.7、DeepSeek V4 等 7 款新模型同时上线,9 款旧将退役
2026 年 5 月 1 日,赢政指数完成史上最大规模评测阵容更新:GPT-5.5 替代 GPT-4o、Claude Opus 4.7、DeepSeek V4、Gemini 3.1 Pro 等 7 款新旗舰同时入列,9 款旧模型正式退役。新阵容将在下一次周评测中首次亮相。
资讯
法律AI新贵Legora估值56亿美元,与Harvey对决升级
法律AI初创公司Legora近日估值飙升至56亿美元,与竞争对手Harvey的竞争进入白热化阶段。两家公司均获得巨额融资,并开始互相渗透对方核心市场,甚至展开了针锋相对的广告宣传战。本文深度解析这场法律科技领域的“AI军备竞赛”,探讨其背后的行业变革、资本博弈及未来趋势。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab