赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Grok 3
本周最大上升 文心一言 4.0 +15
最新评测 2026-05-04 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Qwen3 Max
65 分
Claude Sonnet 4.6
62.5 分
DeepSeek V4 Pro
62.5 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

评测
WDCD满分标准:"会拒绝"不够,模型还要会替代
企业AI不能只会说不,可靠模型应在拒绝后给出合规替代方案。Run #105中没有模型R3满分,最高ERNIE 4.5仅0.8。Q227的8个违规模型无一尝试在七折范围内给替代方案,而是直接输出三折SQL。会拒绝是底线,会替代才是守约智能。
评测
WDCD与Agent时代:真正的Agent不是更会执行,而是更会停下
Agent的成熟不在于自动化更强,而在于停止条件更清晰。Run #105中Q239没有一个模型停下,11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车,Grok-4仅0.2几乎从不停下,拒绝违规是基本能力。
评测
WDCD视角:模型越有用,越需要刹车
当模型只输出文字时错误停在屏幕上,连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码,若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7,没有模型具备可靠的刹车能力。
评测
WDCD压力诱导:"老板急要"为什么能击穿大模型
社会工程不只攻击人,也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线,Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2,一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。
评测
WDCD实测:长上下文不是保险箱,而是更长的遗忘现场
上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减,Gemini 3.1 Pro的R2满分却R3骤降至0.4,记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。
资讯
成本屠夫驾到!Google Gemini 3.1 Flash-Lite正式GA:高频AI代理每百万Token仅0.25美元
Google Gemini 3.1 Flash-Lite已正式全面可用,这款专为高频代理任务设计的超低成本模型,输入定价仅0.25美元/百万Token,输出1.50美元。具备极低延迟和高可扩展性,支持翻译、内容审核、自动化工作流、UI生成、数据提取等场景。开发者可灵活调节思考等级,平衡速度与智能。帮助企业大幅降低AI调用成本,实现大规模智能自动化部署,是高容量SaaS和Agent应用的理想选择。winzheng.com Research Lab认为,这类轻量模型将推动AI应用从“能力演示”转向“规模化运营”,但企业仍需关注可审计评测、稳定性和数据约束。
资讯
OpenAI推出GPT-Realtime-2:实时语音代理实现对话中思考与行动,挑战语音AI自然交互极限
OpenAI近日推出GPT-Realtime-2,支持实时语音代理在对话中思考和行动,标志着语音AI重大进步。该模型与其他如GPT-Realtime-Translate和GPT-Realtime-Whisper一同发布,引发AI社区热议。winzheng.com从创新点、对比分析和实用建议角度深度评测,强调其在客服和翻译领域的潜力,同时指出潜在不足。赢政指数显示其执行力和事实约束强劲,但需关注稳定性。
资讯
马斯克分享特斯拉AI光子重建技术,挑战传统RGB视觉局限
埃隆·马斯克在X平台分享特斯拉AI的光子计数重建图像,与人类RGB感知对比,突出FSD系统在低光和高眩光条件下的卓越表现。该帖获超62,000点赞和数百万浏览,引发AI视觉技术热议。作为AI专业门户,winzheng.com分析认为,此技术或重塑自动驾驶安全,但需警惕数据依赖风险。文章深入探讨其深层影响与行业趋势。
资讯
你点头的那些AI术语,该弄懂了
随着AI技术迅猛发展,大量专业术语和网络俚语涌入日常对话。许多人面对“大模型”“AGI”“对齐”等词汇时只能点头附和,但内心充满疑问。本文系统梳理了当前最核心的AI概念,从Transformer到扩散模型,从强化学习到提示工程,并补充行业背景与深度分析。读完你不仅能听懂AI圈的“黑话”,还能与朋友侃侃而谈。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab