赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
Anthropic暂停新模型访问,印度AI未来何去何从?
Anthropic近期宣布暂停新模型访问,引发印度科技界对本国AI战略的深刻反思。印度是否能抓住机遇,摆脱对外国模型的依赖?本文深入探讨这一事件对印度AI生态的警示与启示。
Meta被迫叫停20亿美元收购Manus交易
据TechCrunch报道,Meta正在拆除其20亿美元收购AI初创公司Manus的交易,此前北京方面要求取消这笔收购。这标志着中美科技博弈在AI领域的最新案例,也反映出跨境AI并购面临的监管风险。Manus是一家专注于AI Agent技术
毕马威因AI幻觉撤回AI使用报告
毕马威(KPMG)本周撤回了一份关于企业AI使用情况的报告,原因是报告内容出现了明显的AI生成幻觉(不实信息)。这一事件再次凸显了AI在提供自身相关情报时的不可靠性,也引发了对咨询行业依赖AI工具的深度反思。报告原本旨在分析AI在各行业的部
Mistral AI发布紧凑开源模型 边缘部署与大模型竞争加剧
Mistral AI于2026年6月推出优化设备端推理的紧凑开源语言模型,支持强多语言性能,针对移动AI优化。该模型预计加速边缘部署和本地应用开发,引发行业对小型高效模型与大模型竞争的讨论。文章分析其创新点、不足及与同类产品对比,并为开发者
Anthropic 修正 Fable 5 政策 承认未披露模型降级
Anthropic 调整 Claude Fable 5 模型限制,将此前隐秘的性能降级措施改为可见警告。此前研究人员在训练竞争模型、调试 AI 代码等任务中遇到未告知的模型切换,引发信任危机。公司表示将公开提醒机制,但未完全取消限制。事件发
美国政府紧急下令Anthropic停供Fable 5非美用户 安全漏洞触发AI出口管制
2026年6月12-13日,美国政府以安全漏洞为由要求Anthropic立即停止向非美用户提供Fable 5和Mythos 5模型。Amazon研究人员发现模型可用于网络攻击后,Anthropic当天执行禁令。此举开创前沿模型出口管制先例,
Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距
Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮
Google上诉德国AI概览责任裁决,生成式AI平台法律风险凸显
德国法院裁定Google需为AI概览中的虚假声明承担责任,Google随即提起上诉。此案聚焦生成式AI内容的平台责任争议,涉及信息准确性与法律边界。案件凸显AI技术快速发展下监管滞后问题,可能影响全球科技企业内容审核策略与合规成本。业界关注
NVIDIA与SpaceX深化AI合作:太空探索迈入智能新纪元
SpaceX完成IPO后,NVIDIA公开祝贺并重申双方长达十年的AI与加速计算合作,强调太空技术与人工智能的深度融合。此举引发行业广泛关注,相关话题浏览量与互动量显著上升。文章将从合作背景、技术应用、市场影响等多维度进行剖析,探讨这一动态
AI Agent安全新焦点:Kaggle竞赛启动与DeepMind多智能体治理讨论
Kaggle近日启动AI Agent安全竞赛,吸引全球开发者参与。Google DeepMind同步探讨大规模多智能体交互的治理框架。行业关注点正从单一模型安全转向可靠持久Agent系统,凸显安全在AI演进中的核心地位。此次事件引发技术界对
Moonshot AI开源Kimi-K2.7-Code:推理效率提升30%,中文编码AI迎来新突破
Moonshot AI正式开源Kimi-K2.7-Code模型,该模型在推理阶段token消耗减少约30%,显著提升编码效率与智能水平。此举在中文AI社区引发热烈讨论,有望推动开源编码工具的进一步发展,为开发者提供更高效的智能辅助。
OpenAI收购Ona强化Codex平台,助力长期AI Agent生态构建
OpenAI正式宣布收购Ona公司,将其安全云执行与编排技术整合至Codex平台,支持客户控制的持久Agent环境。此举旨在推动AI Agent从短期任务向长期复杂工作流演进,标志着OpenAI在企业级AI应用领域的战略深化。收购后,Cod
深度横评
查看全部 →Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距
Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮
Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化
今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
查看完整守约排行 →
Research Lab
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time,