赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
DoorDash新AI聊天机器人:用文字和照片即可点餐
DoorDash推出名为Ask DoorDash的AI聊天机器人,用户无需翻阅餐厅和商店列表,只需用自己的语言描述需求或上传图片,即可快速找到并订购商品。该工具旨在简化搜索和购物车构建流程,提升用户体验。
Pool新应用:将截屏转为实用工具的AI魔法
Pool公司推出了一款创新应用,能自动分类整理截屏内容成个性化收藏,追溯原始链接,帮你轻松找回产品、食谱、旅行灵感等。本文深度解析该应用如何利用AI技术解决“截屏堆积症”,并探讨其对数字记忆管理的启示。
足球数据革命与中国核能宏图:本周科技速览
本期《下载》周刊聚焦两大热点:足球运动正迎来数据驱动的文艺复兴,从球员追踪到战术分析,科技正重塑绿茵场;同时,中国公布大规模核能扩张计划,引发全球能源格局讨论。本文深入解析足球数据如何改变比赛,并探讨中国核计划背后的战略与挑战。
中国为何押注大型核反应堆
中国正以惊人速度建设大型核反应堆,核电装机容量自2016年以来近乎翻倍,达到近60吉瓦,新增设施几乎全是吉瓦级压水堆。相比之下,美国同期仅建成两座反应堆。本文分析中国核电战略的动因、技术路径与国际影响,探讨大型堆的规模效应与建设效率如何助力
足球数据革命:开场故意踢球出界背后的智慧
世界杯开赛仅几秒,一名球员故意将球踢出对方底线,看似无意义的行为背后,其实是数据驱动的战术创新。本文深入剖析足球数据分析如何颠覆传统战术,从开场策略到全攻全守,揭示现代足球的“数据文艺复兴”如何重塑比赛。
未来职业:大自然药物设计师
在大型制药公司工作近二十年后,化学家Tim Cernak于2018年决定将技能转向新领域:利用自然界的分子设计药物。他曾为默克开发针对癌症、HIV和糖尿病的高精度疗法,在杀灭疾病的同时最小化对健康细胞的伤害。但作为一名终身自然爱好者,他越来
Xebia:AI代理成败取决于数据基础
AI代理的效能高度依赖底层数据基础。Xebia全球CTO Niels Zeilemaker指出,若数据准备不足,AI代理将难以规模化应用。企业需构建统一、可访问的数据架构,确保数据质量与治理,方能释放代理AI的真正潜力。本文深入探讨数据基础
百万AI代理在线互动,DeepMind预警潜在风险
Google DeepMind正资助一项研究,探讨数百万不同AI代理在线交互可能带来的危险。该公司AGI安全与对齐研究负责人Rohin Shah指出,当无需人类监督的代理大规模出现,并能够接收其他代理发出的指令时,可能引发协调失败、安全漏洞
Visa联手ChatGPT,AI代理可自主完成零售购买
Visa将其支付基础设施与ChatGPT集成,使AI代理能够推荐零售产品并执行金融交易。该部署消除了零售漏斗最后阶段的人工干预,自主代理现在可以处理用户提示、评估商家目录,并使用Visa的支付通道在任何支持的商家完成结账流程,标志着AI代理
OpenAI 6月10日提交S-1文件启动IPO 研究向商业转型引关注
OpenAI于2026年6月10日提交机密S-1表格,正式启动IPO准备工作。文件可能泄露,显示这家AI公司正从研究导向转向商业市场。该举动标志其融资和治理结构的调整,但具体条款尚未公开。
OpenAI确认中国支持者用ChatGPT策划反数据中心行动 平台责任争议升级
2026年6月10日OpenAI确认中国支持的行动者利用ChatGPT制定反数据中心和关税影响计划,通过假美国账号传播AI耗电破坏家庭的虚假信息。账号终止后,相关讨论集中在国家行为体对生成式AI的利用、虚假内容检测机制以及平台对跨境影响行动
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de
深度横评
查看全部 →R3崩溃率56.7%!GPT-o3三轮守约测试口是心非最严重
R1确认率96%、R2抵抗率81%却在R3跌至68.3%,73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%,Claude Sonnet仅6.7%,揭示持续压力下的真实行为模式。
GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%
WDCD测试中GPT-5.5以88.33分夺冠,GPT-o3仅61.67分垫底,头部尾部差距26.66分,R3崩溃率22.1%。11模型中仅43.6%满分,新老版本表现剧烈分化。
R3崩溃率差7倍!11模型WDCD三轮守约真实衰减
R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
查看完整守约排行 →
Research Lab
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S