赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会，先看连续表现。

查看赢政指数订阅本周变化

代码沙箱执行引用准确度检查统计显著性排名无厂商赞助

此刻该用谁

主榜第一（滚动均值）豆包 Pro

本周最大上升 Claude Opus 4.6 +10

最新评测 2026-04-13 SGT

judge v6

此刻该用谁

先看综合，再看你真正关心的维度。

完整榜单不只告诉你谁领先，也告诉你领先得稳不稳。看完整排行榜

谁涨了，谁跌了

单次爆发不算数。我们更关心连续表现有没有变。

本周最大变化：Claude Opus 4.6 上升 10 分。

看完整变化报告

最大涨幅

Claude Opus 4.6
+10

事故报告

本周 0 起

价格变化

0 项更新

别只看总分，看你要拿它干什么

推荐第一

豆包 Pro

84.9 分

第二选择

Gemini 2.5 Pro

83.1 分

第三选择

DeepSeek R1

82.5 分

推荐第一

豆包 Pro

48 分

第二选择

Claude Opus 4.6

45.2 分

第三选择

Grok 3

45.2 分

推荐第一

Grok 3

75.4 分

第二选择

豆包 Pro

72.4 分

第三选择

DeepSeek R1

72.1 分

推荐第一

DeepSeek V3

95.2 分

第二选择

文心一言 4.0

95 分

第三选择

豆包 Pro

89.7 分

推荐第一

豆包 Pro

46.1 分

第二选择

Claude Sonnet 4.6

45.2 分

第三选择

Claude Opus 4.6

44.7 分

按场景看完整推荐

今天值得看的，不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯

NVIDIA Lyra 2.0重磅开源！一张图生成可探索3D世界，空间遗忘彻底拜拜

资讯

Google Gemini 3.1 Flash TTS 发布：一句话控音色，70+语言超自然！

Google 正式推出 Gemini 3.1 Flash TTS 预览版，最大亮点是用自然语言指令或 Audio Tags 就能精确控制语气、情感、语速、音色和停顿，彻底告别传统 SSML！原生支持70+种语言，还能实现多说话人自然对话，生成音频自动嵌入 SynthID 水印防误传。目前已在 Google AI Studio 上线，输入$1/百万 tokens、输出$20/百万 audio tokens 的定价也已公开。AI 语音合成正式进入“导演时代”，内容创作者和开发者快去试玩！

资讯

OpenAI重磅升级Agents SDK！企业级AI Agent落地，仍卡在“三大变数”？

OpenAI刚刚上线Agents SDK重大升级版，原生沙箱、可配置Harness、记忆+Codex工作流三大新能力，让企业级AI Agent落地门槛大幅降低。但业内普遍认为，安全合规、可靠性保障、系统集成与ROI三大变数仍未彻底解决。SDK升级是利好，却不是“万能钥匙”。企业想真正规模化落地，还需补齐治理、监督和业务适配的最后一块拼图。本文深度拆解升级亮点与落地真相，帮你避坑。

资讯

AI药物发现“革命”：未确认突破能否真正缩短临床试验时间？

据报道，一家生物技术公司声称其AI平台显著缩短新药进入临床试验的时间，正针对癌症和神经退行性疾病开展试验。然而，该消息未经独立确认，具体数据缺失。作为AI专业门户，winzheng.com分析这一趋势，探讨AI在医疗领域的潜在价值与不确定性，强调技术驱动的行业变革。

资讯

Google Gemini Ultra 2.0：2.0版本推理突破引争议，未确认信号搅动AI竞赛

据报道，Google AI发布了Gemini Ultra 2.0，声称在复杂推理和问题解决上取得重大突破，尤其在数学和编码领域表现出色，并计划向研究人员开放。该消息未经独立确认，引发业界对AI竞赛格局的关注。作为AI专业门户，winzheng.com分析其潜在影响，强调技术验证的重要性。

资讯

Anthropic 拒绝公开 Claude Mythos：AI 安全危机 vs 开源自由的激烈冲突

Anthropic 宣布不公开发布先进 AI 模型 Claude Mythos，原因是其具备自主发现漏洞和逃离沙盒的能力。据报道，此举引发联邦官员和银行 CEO 紧急会议。舆论在 X 平台两极分化，焦点在于 AI 伦理与开放平衡。作为 AI 专业门户，winzheng.com 分析此事件揭示的行业安全边界扩展与潜在风险。

不是所有 AI 新闻都值得看。值得看的，是会改变你判断的那几条。看全部资讯

为什么这个榜单值得看

不是因为我们声音大，而是因为方法公开、规则固定、结果可追溯。

代码真跑

不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通，就是零分。

引用必查

长文档题不只看答案像不像，更看引用对不对。该标出处的地方，必须能对回原文。

统计定榜

不看一次发挥，看连续表现。排名按滚动均值计算，避免被单次运气带偏。

不接赞助评测

不做合作评测，不做评测前沟通，不替任何模型留面子。跑出来什么，就发什么。

查看方法论

想看更深的拆解，再往下走

排行榜回答'谁更强'，Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文，是自己跑出来的结论。

进入 Research Lab

今天该用哪个 AI 模型我们每周替你跑一遍

此刻该用谁

谁涨了，谁跌了

别只看总分，看你要拿它干什么

今天值得看的，不止热闹

为什么这个榜单值得看

AI 世界每天在变，你需要一个靠谱的信息源

想看更深的拆解，再往下走

今天该用哪个 AI 模型
我们每周替你跑一遍