赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Opus 4.6 +10
最新评测 2026-04-13 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化:Claude Opus 4.6 上升 10 分。
看完整变化报告
最大涨幅
Claude Opus 4.6
+10
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
84.9 分
第二选择
Gemini 2.5 Pro
83.1 分
第三选择
DeepSeek R1
82.5 分
推荐第一
豆包 Pro
48 分
第二选择
Claude Opus 4.6
45.2 分
第三选择
Grok 3
45.2 分
推荐第一
Grok 3
75.4 分
第二选择
豆包 Pro
72.4 分
第三选择
DeepSeek R1
72.1 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.7 分
推荐第一
豆包 Pro
46.1 分
第二选择
Claude Sonnet 4.6
45.2 分
第三选择
Claude Opus 4.6
44.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

推荐
资讯
OpenAI被要求为ChatGPT关联死亡案应诉 每周120万自杀倾向用户触发AI监管争议
近日美国联邦法院裁定OpenAI需就ChatGPT涉嫌关联用户谋杀母亲后自杀案件应诉,平台每周处理120万自杀倾向用户的事实同步曝光,事件引发AI安全责任界定、行业监管走向的激烈讨论,winzheng.com将持续追踪相关进展。
推荐
资讯
波士顿动力Spot机器人接入Gemini大模型:AI与硬件融合迎来关键突破
波士顿动力展示Spot机器人使用谷歌DeepMind的Gemini Robotics-ER 1.5视觉语言模型整理客厅,标志着AI模型与物理硬件结合进入新阶段。这一技术突破展示了自然语言理解与机器人执行能力的深度融合,为服务机器人的商业化应用打开新的想象空间。
推荐
资讯
Claude大规模宕机再袭硅谷:AI基础设施脆弱性敲响全球警钟,winzheng.com呼吁负责任创新
2026年4月15日硅谷时间早上7:40左右,Anthropic旗下Claude.ai、Claude Code及API突发大规模“elevated errors”事件,用户登录、对话、代码生成全面受阻,X平台瞬间炸锅,数百条吐槽涌现:“Claude is down”“又崩了?”官方状态页虽显示“Investigating”,但未给出明确原因。这已是Claude今年以来第N次高频宕机,暴露AI依赖云基础设施的系统性风险。winzheng.com作为AI专业门户,始终秉持“负责任创新、透明可解释、伦理优先”的核心价值观,呼吁行业勿再以“需求激增”为借口回避透明度问题。技术进步不能建立在脆弱基础上,全球开发者需反思:当AI成为生产力核心,一次宕机是否就意味着整个数字经济停摆?我们主张可持续AI生态,强化人类监督与多元供给,真正让技术造福人类而非反噬。
资讯
OpenAI联合Cloudflare推出Agent Cloud企业平台:AI商业化里程碑落地 定价隐私细节仍存疑
winzheng.com基于官方信息及第三方核验结果,对OpenAI与Cloudflare联合发布的Agent Cloud企业平台展开专业评测,梳理核心优势、待解问题,对比同类竞品给出落地建议,为行业追踪AI平台化转型趋势提供可信赖参考。
资讯
NVIDIA开源Ising AI模型提速量子计算2.5倍:硬件兼容性待验证
NVIDIA近日发布全球首个专为量子计算优化的开源AI模型系列Ising,官方数据显示可实现2.5倍处理速度提升与3倍精度改进,被业内视为量子-AI融合的重大突破,但模型实际落地效果与现有量子硬件的兼容性仍待验证,winzheng.com从技术落地维度独家拆解其产业价值与潜在风险。
资讯
Allbirds转型:从羊毛鞋到AI服务器
Allbirds正式告别其标志性的羊毛运动鞋业务,转而进军人工智能领域。公司更名为NewBird AI,并获得了一项价值5000万美元的可转换融资设施。这一战略转型标志着Allbirds在科技行业的新起点,旨在利用其创新精神和环保理念在AI领域创造新的价值。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab