赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Claude Sonnet 4.6
本周最大上升 Qwen3 Max +68.5
最大回撤 DeepSeek V3 -75.1
最新评测 2026-05-18 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
89.8 分
第二选择
Grok 4
86.8 分
第三选择
Claude Sonnet 4.6
86.8 分
推荐第一
Claude Opus 4.7
55.8 分
第二选择
Claude Sonnet 4.6
52.9 分
第三选择
Gemini 3.1 Pro
48.8 分
推荐第一
Claude Sonnet 4.6
78.4 分
第二选择
Claude Opus 4.7
75.2 分
第三选择
Grok 4
73.9 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
文心一言 4.5
98.3 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 3.1 Pro
38.2 分
第三选择
Claude Sonnet 4.6
38 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Claude Opus 4.7
65 分
Claude Sonnet 4.6
62.5 分
豆包 Pro
60 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
特朗普推迟签署AI安全行政令:“我不想阻碍其领先”
美国总统特朗普推迟签署一项要求AI模型在发布前接受政府安全审查的行政命令,称对措辞不满,不愿在AI技术快速发展时设置障碍。此举引发科技界对AI安全与创新平衡的激烈讨论,业界担忧监管真空可能带来风险,而另一些人则担心过度审查会削弱美国AI竞争力。
资讯
Tony Robbins联手Calm前高管打造更安全AI心理治疗
由励志大师Tony Robbins和Calm前高管共同创立的AI心理健康公司The Path,近日宣布其AI模型在行业权威安全基准Vera-MH上取得95分的高分,远超普通消费级聊天机器人的65分最高得分。这一成绩意味着The Path在AI心理治疗安全性上实现了显著突破,为未来普及AI辅助心理疗愈提供了更可靠的保障。公司强调,其模型经过专业临床医生深度训练,能更精准识别危机信号,避免有害建议,有望重塑AI心理健康服务的安全标准。
资讯
神秘AI新秀Hark获7亿美元A轮融资,估值达60亿
由Brett Adcock创立的AI初创公司Hark,在高度保密状态下完成7亿美元A轮融资,投资者给予60亿美元估值。这家公司自称打造“通用”AI界面,旨在重新定义人机交互方式。尽管产品细节尚未公开,但如此巨额融资和超高估值已经引发行业震动。本文将解析Hark的战略定位、创始人背景以及这笔交易背后的AI投资逻辑。
资讯
Anthropic的Code with Claude:编程的未来已来,你准备好了吗?
Anthropic在伦敦举办为期两天的开发者活动Code with Claude,展示了AI辅助编程的最新进展。活动与Google I/O同期举行,但并非巧合。Claude作为编程助手,正改变开发者工作流,提升效率的同时也引发关于人类角色、代码质量等深层思考。本文编译自MIT Technology Review,深入解析这场活动的意义与编程的未来。
资讯
Spotify播客新增AI问答与简报生成功能
Spotify宣布为播客平台引入AI驱动的问答与简报生成功能。用户可通过自然语言提示生成每日或每周的播客摘要,并在收听过程中向AI提问,获取内容解析。此举旨在提升播客发现效率与用户粘性,进一步巩固Spotify在音频领域的AI布局。行业分析认为,该功能可能重塑播客消费模式,但内容准确性仍是挑战。
资讯
Spotify推新应用,正面硬刚谷歌NotebookLM
Spotify今日发布全新桌面应用,以研究预览形式在超过20个市场上线。该应用直接对标谷歌NotebookLM,主打AI驱动的智能笔记与知识管理功能,但深度整合了Spotify的音频生态——用户可一键将播客、音乐中的关键信息转化为结构化笔记,并支持多模态检索与语音交互。这一举措标志着Spotify从流媒体平台向生产力工具的跨界延伸,也折射出音乐与信息消费的融合趋势。
资讯
Spotify推出ElevenLabs赋能有声书创作工具
Spotify宣布将于今年晚些时候推出基于ElevenLabs技术的有声书创作工具,允许作者和出版商通过AI语音合成快速生成有声书。此举标志着Spotify在音频内容领域的进一步扩张,并可能颠覆传统有声书制作模式。本文深度解析该工具的技术原理、市场影响及潜在挑战。
资讯
我用Gemini化身克隆了自己:结果像得吓人
作者利用Gemini应用创建了自己的数字克隆,生成逼真视频。谷歌视其为未来创作方向,但作者体验后感到毛骨悚然。本文深入探讨AI化身技术的现状、行业背景及伦理隐忧,揭示技术便利背后潜藏的风险。
资讯
在线安全未来之争:研究人员起诉特朗普政府,气候技术大转向
本期的《The Download》关注两大焦点:科技研究人员起诉特朗普政府,因政府持续打压研究仇恨言论的学者,试图影响在线安全的未来;同时,气候技术领域正经历重大转向,从昂贵的创新实验转向务实部署,政策和资本流向发生根本变化。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab