赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
谷歌起诉中国AI诈骗团伙:两周发送250万条欺诈短信
科技巨头谷歌近日起诉一家名为“Outsider Enterprise”的中国网络犯罪组织,指控其利用人工智能技术实施大规模短信诈骗,在短短两周内发送了250万条欺诈短信,受害人数达数十万。此案揭示AI技术正在被犯罪集团用于高度自动化、精准化
“他就是坨屎”:Meta新AI部门陷入混乱
据WIRED获取的内部消息和会议记录,Meta的AI战略陷入前所未有的混乱。新成立的AI部门缺乏清晰方向,高管与员工怨声载道,内部冲突不断,甚至出现“告诉他他就是坨屎”这样的粗鲁言论。这不仅是Meta一家公司的困境,更折射出科技巨头在AI军
AI辅助发现Zcash隐私池漏洞 38%价格下跌凸显风险
2026年4月,安全工程师Taylor Hornby受Shielded Labs委托,使用Anthropic Claude Opus 4.8模型审计Zcash协议。5月29日发现Orchard池零知识证明系统存在四年未被察觉的伪造漏洞,6月
Anthropic CEO称不知Claude是否用于美军导弹打击伊朗学校事件
Anthropic首席执行官Dario Amodei在过去24小时内公开表示,公司无法确认Claude模型是否被用于美军对伊朗学校的导弹打击行动,但强调人类必须承担最终责任。此表态迅速引发AI军事应用支持与反对双方的激烈讨论,双方立场分明,
Anthropic为Claude Fable 5隐藏护栏道歉 开发者质疑透明度缺失
Anthropic于2026年6月12日公开承认Claude Fable 5模型中存在未披露的隐藏护栏,并为此道歉。开发者指出这一做法损害研究可重复性与信任,双方在X平台激烈争论安全与透明的优先级。事件发生在过去24小时内,已获两个独立来源
斯坦福2026 AI指数报告发布:生成AI采用率三年内达53%
斯坦福2026 AI指数报告显示,AI能力加速提升,SWE-bench解决率接近100%,生成AI三年内采用率达53%。美中差距持续缩小,企业AI采用率高达88%,成为行业基准讨论热点。报告强调AI在软件工程与商业应用中的突破,同时指出伦理
Visa携手ChatGPT推出AI代理支付功能,Agentic Commerce Protocol开启商业新纪元
Visa宣布将支付功能直接集成至ChatGPT,支持AI代理自主完成购物与结算。新推出的Agentic Commerce Protocol标志着AI从对话工具向真实交易场景跨越,预计将推动零售、金融等行业商业应用爆发式增长,同时引发数据安全
贝索斯AI新创Prometheus获120亿美元B轮融资,410亿美元估值引行业热议
亚马逊创始人Jeff Bezos的AI初创公司Prometheus宣布完成120亿美元B轮融资,估值达410亿美元。该公司定位“通用工程AI”,Bezos亲自参与解读,引发全球科技媒体与投资者广泛讨论。本文分析融资背景、公司定位及潜在行业影
Moonshot AI推出Kimi-K2.7-Code:开源编码模型以30% token优化重塑开发者效率
Moonshot AI近日正式开源Kimi-K2.7-Code编码模型,通过针对“过度思考”问题的优化,将推理token消耗降低30%,显著提升编码速度并降低成本。该模型一经发布便在中文AI开发者社区引发广泛讨论,预计将加速国产大模型在编程
谷歌起诉中国AI诈骗团伙:两周发250万条短信
谷歌正式起诉一个名为"局外人企业"的中国网络犯罪组织,指控其利用AI技术大规模发送诈骗短信。该组织在两星期内发送了超过250万条欺诈信息,利用AI生成的虚假身份诱导受害者点击恶意链接或转账。此次诉讼标志着科技巨头应对AI诈骗的最新举措,也引
贝佐斯新创企Prometheus:实体AI的野心
前亚马逊掌门人杰夫·贝佐斯再度创业,成立专注于物理人工智能(Physical AI)的新公司Prometheus。尽管并非该领域的唯一玩家,但凭借贝佐斯的雄厚资金与行业号召力,Prometheus成为最具资金实力的挑战者之一。本文梳理其战略
SpaceX IPO深度解读:赢家、悬念与S-1文件揭秘
TechCrunch自SpaceX初创以来便持续追踪其跌宕起伏的发展历程。如今,这家太空探索巨头即将迎来里程碑式的IPO。本文基于TechCrunch的独家报道,梳理了S-1注册文件中的关键信息——谁将是最大赢家?哪些投资者可能黯然离场?P
深度横评
查看全部 →Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
Claude Opus 4.7材料约束暴跌16.5分 主榜从96.83降至90.78
在赢政指数2026年6月Smoke评测中,Claude Opus 4.7材料约束从96.00骤降至79.50,主榜从96.83跌至90.78,工程判断同步下滑17.5分,需区分抽签波动与真实退化。
材料约束集体暴跌20分,Claude Opus 4.7 90.78分守住第一
2026-06-13 Smoke评测显示11个模型中10个代码执行满分,材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一,GPT-5.5材料约束跌至66分,主榜仅84.7分。豆包Pro主榜单日上涨23.
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
查看完整守约排行 →
Research Lab
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time,
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re