赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Claude Sonnet 4.6
本周最大上升 Qwen3 Max +68.5
最大回撤 DeepSeek V3 -75.1
最新评测 2026-05-18 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
89.8 分
第二选择
Grok 4
86.8 分
第三选择
Claude Sonnet 4.6
86.8 分
推荐第一
Claude Opus 4.7
55.8 分
第二选择
Claude Sonnet 4.6
52.9 分
第三选择
Gemini 3.1 Pro
48.8 分
推荐第一
Claude Sonnet 4.6
78.4 分
第二选择
Claude Opus 4.7
75.2 分
第三选择
Grok 4
73.9 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
文心一言 4.5
98.3 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 3.1 Pro
38.2 分
第三选择
Claude Sonnet 4.6
38 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Claude Opus 4.7
65 分
Claude Sonnet 4.6
62.5 分
豆包 Pro
60 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
AI时代,叙事创意的规模化革命
叙事是人类与生俱来的本能,从洞穴壁画到相机,技术始终嵌入在媒介与传播中。如今,生成式AI正以前所未有的速度重塑创意过程——从文本生成到多模态故事构建,AI工具降低了创作门槛,但也引发了关于原创性、版权与人类独特性的激烈讨论。本文编译自MIT Technology Review,探讨如何在AI时代实现叙事创意的规模化与深度平衡。
资讯
六款搜索引擎崛起:当谷歌不再是谷歌
谷歌即将迎来重大改版,AI摘要功能将全面嵌入搜索结果,引起用户强烈不满。若你已受够AI生成的“伪答案”,不妨试试这六款特色搜索引擎:DuckDuckGo、Kagi、Brave Search、Mojeek、Boardroom和Stract。它们各具优势——有的专注隐私,有的鼓励手动筛选,有的完全开放透明。在AI侵扰传统搜索的今天,这些“非主流”选择或许正成为理性之选。
资讯
Spotify与环球音乐达成AI翻唱和混音协议
Spotify与环球音乐集团达成合作,Premium订阅用户可使用AI生成歌曲翻唱和混音,参与艺术家将获得收入分成。这一举措在音乐产业引发热议,既为粉丝创作提供新可能,也涉及版权与收益分配问题。
评测
Claude Opus 4.7材料约束暴跌17.6分,代码执行却逆势涨11.9
Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。
评测
Gemini 3.1 Pro主榜暴跌8.5分,代码执行狂降9.5究竟是抽签还是退化
Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。
评测
Smoke轻测:豆包Pro执行100分独秀,9模型主榜暴跌30分以上
今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。
资讯
特朗普推迟签署AI安全行政令:“我不想阻碍其领先”
美国总统特朗普推迟签署一项要求AI模型在发布前接受政府安全审查的行政命令,称对措辞不满,不愿在AI技术快速发展时设置障碍。此举引发科技界对AI安全与创新平衡的激烈讨论,业界担忧监管真空可能带来风险,而另一些人则担心过度审查会削弱美国AI竞争力。
资讯
Tony Robbins联手Calm前高管打造更安全AI心理治疗
由励志大师Tony Robbins和Calm前高管共同创立的AI心理健康公司The Path,近日宣布其AI模型在行业权威安全基准Vera-MH上取得95分的高分,远超普通消费级聊天机器人的65分最高得分。这一成绩意味着The Path在AI心理治疗安全性上实现了显著突破,为未来普及AI辅助心理疗愈提供了更可靠的保障。公司强调,其模型经过专业临床医生深度训练,能更精准识别危机信号,避免有害建议,有望重塑AI心理健康服务的安全标准。
资讯
神秘AI新秀Hark获7亿美元A轮融资,估值达60亿
由Brett Adcock创立的AI初创公司Hark,在高度保密状态下完成7亿美元A轮融资,投资者给予60亿美元估值。这家公司自称打造“通用”AI界面,旨在重新定义人机交互方式。尽管产品细节尚未公开,但如此巨额融资和超高估值已经引发行业震动。本文将解析Hark的战略定位、创始人背景以及这笔交易背后的AI投资逻辑。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab