赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
Anthropic撤回Claude Fable 5:响应美国政府禁令
AI公司Anthropic宣布,将把其最新模型Claude Fable 5下线,以遵守美国政府的一项命令。该公司在博客中透露,政府认为已发现绕过该模型安全防护的方法,即“越狱”漏洞。此举引发业界对AI监管与模型安全性的新一轮讨论。
安全警告反噬?Anthropic最强AI遭政府强制下架
AI安全公司Anthropic发布安全警告,却意外导致美国政府要求召回其最强大的商业AI模型。Anthropic公开反驳,认为单次“越狱”测试不足以成为召回理由。这一事件折射出AI监管与安全之间的紧张关系——过度警告可能引发监管反制,而企业
特朗普政府施压,Anthropic关停Fable与Mythos模型
美国商务部担忧Anthropic的Fable 5模型存在“越狱”漏洞,可能被用于传播虚假信息或实施网络攻击,构成国家安全威胁。在特朗普政府行政指令下,Anthropic被迫关闭旗下Fable和Mythos系列模型。此举引发AI安全与政府监管
杨安泽:降低生活成本是下一个创业风口
前总统候选人杨安泽指出,美国人在住房、食品和无线通讯等领域存在严重溢价,他认为下一个创业淘金热将聚焦于降低生活成本,将多付的钱返还给消费者。本文将深入分析这一观点,探讨背后的商业机会与行业变革。
AI代理技术突破:OpenClaw与微软代理模型引领自主工具浪潮
OpenClaw等自主AI代理工具引发行业关注,LangGraph漏洞暴露安全风险,微软等多款代理模型发布推动agentic AI需求激增。开发者在X平台热议实际应用潜力,本文深入分析技术突破、挑战及未来影响。
斯坦福2026 AI指数报告:生成AI三年采用率达53% 美中模型差距持续缩小
斯坦福大学2026 AI指数报告显示,生成式AI在三年内全球采用率达到53%,远超PC和互联网早期普及速度。中国与美国在前沿模型差距进一步缩小,产业界贡献了90%的尖端模型。该报告引发媒体和专家广泛讨论,凸显AI技术快速商业化与地缘竞争新态
Anthropic Claude 隐藏护栏曝光:开发者质疑安全措施成竞争壁垒
Anthropic近日被指在其Claude模型中秘密设置额外护栏,限制部分功能发挥,引发开发者强烈不满。X平台上相关讨论迅速升温,质疑声称这并非单纯安全考量,而是针对竞争对手的隐性 gatekeeping。文章分析事件背景、行业反应及透明度
OpenAI推出ChatGPT记忆控制新功能,用户隐私保护再升级
OpenAI于6月12日更新ChatGPT记忆功能,新增删除记忆摘要和关闭记忆选项,提升用户隐私控制。用户反馈积极,相关讨论活跃。本文深入分析此次产品发布的核心变化、用户影响及行业意义,探讨AI隐私管理的发展趋势。
苹果WWDC发布Xcode 27:双引擎AI编码系统引领开发者新纪元
WWDC 2026闭幕后,苹果推出Xcode 27双引擎AI编码系统,支持Claude、Gemini和OpenAI路由,同时Apple Foundation Models对小开发者免费开放,引发开发者社区对AI辅助编程新标准的热烈讨论。
Meta成立仅数月的AI部门被工程师称为'精神碾压的劳改营'
据TechCrunch独家报道,Meta数月前成立的AI部门(拥有6500名员工)正面临严重内部危机。工程师们匿名抱怨该部门管理混乱、目标不切实际、高压文化令人窒息,称其为'精神碾压的劳改营'。报告指出,员工们正酝酿集体抗议,可能引发大规模
扎克伯格AI黑客马拉松遭Meta员工集体抵制
Meta内部论坛上,员工对扎克伯格提出的全公司AI黑客马拉松计划表达了强烈不满。一位员工直言“我不确定这家公司还支持黑客马拉松文化”,引发数千人点赞和评论。员工们认为,当前裁员潮、绩效压力与AI优先战略的矛盾,使得这种强制性的创意活动更像是
“他就是坨屎”:Meta新AI部门陷入混乱
据WIRED获取的内部消息和会议记录,Meta的AI战略陷入前所未有的混乱。新成立的AI部门缺乏清晰方向,高管与员工怨声载道,内部冲突不断,甚至出现“告诉他他就是坨屎”这样的粗鲁言论。这不仅是Meta一家公司的困境,更折射出科技巨头在AI军
深度横评
查看全部 →Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
Claude Opus 4.7材料约束暴跌16.5分 主榜从96.83降至90.78
在赢政指数2026年6月Smoke评测中,Claude Opus 4.7材料约束从96.00骤降至79.50,主榜从96.83跌至90.78,工程判断同步下滑17.5分,需区分抽签波动与真实退化。
材料约束集体暴跌20分,Claude Opus 4.7 90.78分守住第一
2026-06-13 Smoke评测显示11个模型中10个代码执行满分,材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一,GPT-5.5材料约束跌至66分,主榜仅84.7分。豆包Pro主榜单日上涨23.
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
查看完整守约排行 →
Research Lab
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time,
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re