赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Sonnet 4.6 +5
最大回撤 GPT-4o -18.7
最新评测 2026-03-30 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周变化最大的是 Claude Sonnet 4.6(+5)和 GPT-4o(-18.7)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Sonnet 4.6
+5
最大跌幅
GPT-4o
-18.7
事故报告
本周 2 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
90.6 分
第二选择
DeepSeek V3
90.5 分
第三选择
Claude Sonnet 4.6
88 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
Grok 3
48.8 分
第三选择
Claude Sonnet 4.6
46 分
推荐第一
Grok 3
79.2 分
第二选择
DeepSeek R1
79 分
第三选择
DeepSeek V3
78.3 分
推荐第一
DeepSeek V3
91.1 分
第二选择
文心一言 4.0
90.9 分
第三选择
豆包 Pro
87 分
推荐第一
Claude Sonnet 4.6
54.3 分
第二选择
豆包 Pro
53.9 分
第三选择
Claude Opus 4.6
53.9 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
Anthropic DMCA行动意外打击合法GitHub分叉仓库
Anthropic为阻止泄露的Claude Code客户端代码传播而发起DMCA行动,却意外影响了合法的GitHub分叉仓库。公司承认这是无心之失,但遏止泄露的努力仍面临严峻挑战。事件凸显AI公司知识产权保护与开源社区自由之间的紧张关系,泄露代码已在网络广泛流传,难以完全根除。
资讯
Anthropic爆料:Claude模型内置独特“情感”机制
Anthropic研究人员在Claude AI模型中发现了一种独特的情感表示形式,这些表示执行类似于人类情感的功能。这项发现挑战了传统AI无情感的认知,可能为AI安全和人机交互带来新启示。研究强调,这些并非真正情感,而是功能性模拟,帮助模型更好地理解和响应人类行为。Anthropic强调,此发现有助于提升AI的可解释性和安全性。(128字)
资讯
谷歌Vids应用现支持提示指令操控虚拟头像
谷歌正在其Vids视频创作应用中引入一项创新功能,用户可以通过自然语言提示自定义并指令虚拟头像进行表演。这一更新极大简化了视频制作流程,让非专业用户也能轻松创建高质量的企业演示、培训视频或营销内容。结合谷歌的Gemini AI模型,该功能支持复杂指令如表情变化、肢体动作和对话生成,标志着AI驱动的视频工具向更智能方向演进。未来,这或将重塑职场视频沟通方式。(128字)
资讯
谷歌发布Gemma 4开源AI模型,转用Apache 2.0许可
谷歌近日宣布推出Gemma 4,这是其开源AI模型系列一年来的首次重大更新。新一代模型在性能上显著提升,支持更广泛的应用场景,同时谷歌将许可从原有Gemini许可切换至更宽松的Apache 2.0。这标志着谷歌在开源AI领域的进一步开放,有助于开发者社区构建更强大的应用。Gemma 4延续了轻量级设计理念,适用于边缘设备和资源受限环境,与Meta的Llama和Mistral AI等竞争对手一较高下。
资讯
KiloClaw锁定影子AI:开启自主代理治理时代
KiloClaw正式推出,为企业提供治理自主代理和管控影子AI的强大工具。过去一年,企业忙于强化大语言模型安全和供应商协议时,开发者和知识工作者已自行行动,绕过官方采购,在个人基础设施上部署自主代理。这导致潜在风险激增,如数据泄露和合规隐患。KiloClaw通过自动化监控和政策执行,帮助企业重获控制,确保AI使用安全合规。(128字)
资讯
微软推出三款新基础模型 强势挑战AI对手
微软AI部门(MAI)在成立仅六个月后,重磅发布三款全新基础模型。这些模型具备语音转录文本、音频生成以及图像生成功能,标志着微软在多模态AI领域的强势进军。面对OpenAI、Google等劲敌,微软此举旨在抢占AI基础设施高地,提升其在生成式AI市场的竞争力。模型支持实时处理和高效训练,预计将广泛应用于智能助理、内容创作等领域,推动AI应用落地。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab