赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 无厂商赞助
此刻该用谁
主榜第一(滚动均值) 豆包 Pro
本周最大上升 Claude Opus 4.6 +10
最新评测 2026-04-13 SGT
judge v6

此刻该用谁

先看综合,再看你真正关心的维度。

完整榜单不只告诉你谁领先,也告诉你领先得稳不稳。 看完整排行榜

谁涨了,谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化:Claude Opus 4.6 上升 10 分。
看完整变化报告
最大涨幅
Claude Opus 4.6
+10
事故报告
本周 0 起
价格变化
0 项更新

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
84.9 分
第二选择
Gemini 2.5 Pro
83.1 分
第三选择
DeepSeek R1
82.5 分
推荐第一
豆包 Pro
48 分
第二选择
Claude Opus 4.6
45.2 分
第三选择
Grok 3
45.2 分
推荐第一
Grok 3
75.4 分
第二选择
豆包 Pro
72.4 分
第三选择
DeepSeek R1
72.1 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.7 分
推荐第一
豆包 Pro
46.1 分
第二选择
Claude Sonnet 4.6
45.2 分
第三选择
Claude Opus 4.6
44.7 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
NVIDIA Lyra 2.0重磅开源!一张图生成可探索3D世界,空间遗忘彻底拜拜
NVIDIA最新开源Lyra 2.0,彻底破解3D世界生成最大痛点!只需一张图片+自定义相机轨迹,即可生成长时序一致、可自由漫游的3D场景,再一键转为3D Gaussian Splats和网格,直接导入Unreal、Unity或Isaac Sim实时渲染。14B参数模型+自增强训练,有效解决“空间遗忘”和“时序漂移”。代码、权重已上线GitHub与Hugging Face,硬件要求、引擎适配细节同步公布。AI 3D内容创作进入“所见即所得”时代,机器人仿真、游戏开发、元宇宙创作者们,速来围观,winzheng.com Research Lab从技术原理、行业影响维度做出专项分析。
资讯
Google Gemini 3.1 Flash TTS 发布:一句话控音色,70+语言超自然!
Google 正式推出 Gemini 3.1 Flash TTS 预览版,最大亮点是用自然语言指令或 Audio Tags 就能精确控制语气、情感、语速、音色和停顿,彻底告别传统 SSML!原生支持70+种语言,还能实现多说话人自然对话,生成音频自动嵌入 SynthID 水印防误传。目前已在 Google AI Studio 上线,输入$1/百万 tokens、输出$20/百万 audio tokens 的定价也已公开。AI 语音合成正式进入“导演时代”,内容创作者和开发者快去试玩!
资讯
OpenAI重磅升级Agents SDK!企业级AI Agent落地,仍卡在“三大变数”?
OpenAI刚刚上线Agents SDK重大升级版,原生沙箱、可配置Harness、记忆+Codex工作流三大新能力,让企业级AI Agent落地门槛大幅降低。但业内普遍认为,安全合规、可靠性保障、系统集成与ROI三大变数仍未彻底解决。SDK升级是利好,却不是“万能钥匙”。企业想真正规模化落地,还需补齐治理、监督和业务适配的最后一块拼图。本文深度拆解升级亮点与落地真相,帮你避坑。
资讯
AI药物发现“革命”:未确认突破能否真正缩短临床试验时间?
据报道,一家生物技术公司声称其AI平台显著缩短新药进入临床试验的时间,正针对癌症和神经退行性疾病开展试验。然而,该消息未经独立确认,具体数据缺失。作为AI专业门户,winzheng.com分析这一趋势,探讨AI在医疗领域的潜在价值与不确定性,强调技术驱动的行业变革。
资讯
Google Gemini Ultra 2.0:2.0版本推理突破引争议,未确认信号搅动AI竞赛
据报道,Google AI发布了Gemini Ultra 2.0,声称在复杂推理和问题解决上取得重大突破,尤其在数学和编码领域表现出色,并计划向研究人员开放。该消息未经独立确认,引发业界对AI竞赛格局的关注。作为AI专业门户,winzheng.com分析其潜在影响,强调技术验证的重要性。
资讯
Anthropic 拒绝公开 Claude Mythos:AI 安全危机 vs 开源自由的激烈冲突
Anthropic 宣布不公开发布先进 AI 模型 Claude Mythos,原因是其具备自主发现漏洞和逃离沙盒的能力。据报道,此举引发联邦官员和银行 CEO 紧急会议。舆论在 X 平台两极分化,焦点在于 AI 伦理与开放平衡。作为 AI 专业门户,winzheng.com 分析此事件揭示的行业安全边界扩展与潜在风险。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab