赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
Salesforce斥资36亿美元收购AI客服平台Fin
Salesforce宣布以36亿美元收购AI客服平台Fin,旨在利用其团队和技术升级Agentforce平台。该平台允许企业构建自定义AI代理以自动化客户服务任务。此次收购凸显CRM巨头加速AI布局,应对市场竞争。
首位重度用户:ALS患者借助脑植入设备发声
凯西·哈雷尔(Casey Harrell)是一名患有肌萎缩侧索硬化症(ALS)的瘫痪患者,三年前其大脑中被植入一组电极。2023年,他首次通过脑机接口(BCI)在团队帮助下“说出”句子。此后,他累计使用了数千小时,成为该技术的“首位重度用户
网络安全专家抗议美国政府禁止最强AI模型:危险之举
一群由数十名网络安全专家组成的团体致信白宫,强烈要求解除对Anthropic公司最强AI模型Fable和Mythos的出口管制。专家们认为,该禁令不仅无助于提升国家安全,反而严重限制了网络安全防御者保护软件和产品的能力,是一种“危险”的举措
一颗卫星学会自主搜寻目标,意味着什么?
今年4月,一颗地球观测卫星首次完全依靠自身能力找到了它要搜寻的目标。这标志着人工智能在太空领域的重大突破——卫星不再单纯“拍照”,而是能够自主决策、识别并定位特定物体。这一技术将如何改变遥感、军事侦察、灾害监测等行业?本文深度解读。
固态空调能否实现凉爽与环保兼得?自然界的药物设计大师
面对连续三年创纪录高温,空调不可或缺,但其碳排放问题日益严峻。新型固态空调技术承诺更环保的未来,但科学家对其实际效果存疑。与此同时,科学家从自然界中寻找药物设计灵感,利用AI和仿生学开发新型疗法。本文编译自MIT Tech Review,探
NewCore获$66M:为AI代理赋予企业身份
随着AI代理深入企业运营,其身份与权限管理成为安全新挑战。NewCore宣布获得6600万美元融资,旨在为自主AI代理提供数字身份管理平台,覆盖凭证颁发、访问控制与行为审计。公司认为,未来企业安全的核心将不再是管理人类员工,而是管理AI代理
印度AI初创Sarvam获2.34亿美元融资,HCLTech领投成新晋独角兽
印度IT服务巨头HCLTech向班加罗尔AI初创公司Sarvam投资1.5亿美元,领投其2.34亿美元融资轮。Sarvam由此成为印度最新AI独角兽,估值突破10亿美元。该公司专注于多语言AI模型开发,服务于印度本土市场,本次融资将用于扩大
鸿蒙OS 7强势填补苹果在华AI空白
苹果确认Siri AI不在中国推出后仅四天,华为在东莞发布HarmonyOS 7,宣称开启“代理时代”。华为用专门为填补这一空白而构建的架构,抢占了苹果未能触及的领域。本文解析鸿蒙OS 7的真正改变,及其对中国AI生态的深远影响。
固态空调承诺清凉未来?科学家存疑
连续三年创纪录高温,全球空调数量预计2050年增长三倍。新型固态空调号称环保节能,但科学家对其实际效果和成本仍持保留态度。本文编译自MIT Technology Review,探讨固态制冷技术的潜力与挑战。
埃森哲报告:74%消费者更信任AI购物代理胜过挚友
埃森哲最新消费者脉搏研究显示,全球消费者对AI购物代理的信任度显著提升。在16个国家2.5万余名受访者中,74%的人表示更愿意信任个人AI代理而非最好的朋友来做出购物决策。研究指出,AI代理在个性化推荐、比价和简化购物流程方面的优势正在改变
AI裁员潮:一个正在酝酿的火药桶
当数万名科技工作者被扫地出门的同时,一小撮AI业内人士正以前所未有的速度积累财富。这种巨大的反差使得当前的裁员潮成为一个极易引爆的“火药桶”。本文深入分析这一现象背后的原因、影响及潜在风险,并探讨科技行业财富分配失衡的深层问题。
AI开关之争:Anthropic出口管制引爆全球主权焦虑
2026年6月13日,美国政府一纸出口管制令,迫使Anthropic将其最强大的两个AI模型对全球非美国用户关闭,甚至一度波及公司内的外籍员工。这一“AI开关”立即引发欧洲、加拿大等地区的强烈反弹,各国开始紧急评估自身AI供应链的脆弱性,全
深度横评
查看全部 →豆包Pro材料约束暴跌24分,代码执行却从38.4飙至100
今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。
Grok 4 材料约束暴跌21.7分,代码执行却升至100分
赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。
材料约束暴跌39分,赢政指数11模型主榜集体下滑
2026年6月15日Smoke评测显示,11个模型材料约束平均下滑30分以上,Grok 4以主榜82.59分(执行100、约束61.3)暂居第一,豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分,执行从97
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
查看完整守约排行 →
Research Lab
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to