赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
明知技术有缺陷,英国仍用面部扫描筛查寻求庇护者年龄
英国内政部内部测试显示,用于寻求庇护者年龄验证的面部扫描技术存在严重错误,可能导致误判未成年人或成年人。尽管意识到风险,英国仍计划推进该技术,引发隐私与伦理争议。本文编译自WIRED。
谷歌文档AI助手关闭指南:摆脱Gemini弹窗
谷歌在文档中整合了AI助手Gemini,但频繁弹出的“write with Gemini”提示让不少用户感到困扰。本文基于TechCrunch原文,详细介绍了关闭这些AI建议的步骤——通过文档右上角的Gemini按钮或设置中的写作偏好功能,
白宫介入!韩国电信巨头SK Telecom被指涉华,Anthropic模型争议升级
在Anthropic将最强AI模型Claude Mythos下线数日前,白宫以涉嫌与中国存在不当关联为由,强制要求Anthropic切断韩国电信巨头SK Telecom对该模型的访问权限。这一事件暴露了AI领域国际技术管控的复杂博弈,也引发
Snap天价AR眼镜发布后股价暴跌
Snap公司于6月18日终于推出了备受期待的下一代增强现实眼镜,售价高达数千美元,然而市场反应冷淡,股价应声大跌。分析师指出,高昂的定价、有限的消费者应用场景以及竞争对手的快速布局,让这场长期押注未能点燃投资者热情。本文编译自TechCru
前红杉掌门人Botha加入SpaceX董事会
在SpaceX完成史上最大规模IPO数天后,前红杉资本全球管理合伙人Roelof Botha正式加入其董事会,填补了一个“现有空缺”。Botha的加入不仅标志着他与SpaceX创始人马斯克长期合作的深化,更被视为科技投资界与航天工业融合的又
星巴克韩国坦克日推广重提光州事件 引发大规模抵制与CEO解雇
2026年5月18日,星巴克韩国推出坦克系列杯子促销活动并命名为坦克日,日期与1980年光州事件周年重合,口号“拍桌子”也唤起1987年朴钟哲酷刑案记忆。活动上线数小时后取消,CEO孙正铉当天被解雇,引发全国抵制、砸杯视频传播及政府断交,门
美国政府以越狱风险为由命令Anthropic停用Fable 5和Mythos 5模型
2026年6月12日晚,美国商务部以国家安全和出口管制为由,要求Anthropic立即停止向任何外国国民提供Claude Fable 5和Mythos 5模型访问权限,导致全球用户无法使用这两款刚于6月9日上线的模型。此举源于模型存在越狱漏
美司法部介入NAACP诉xAI案 主张57台燃气轮机属国家安全资产
2026年6月16日,美国司法部正式介入NAACP针对xAI Colossus 2数据中心的Clean Air Act诉讼,主张57台燃气轮机为国家安全资产并请求驳回起诉。xAI辩称设备属临时移动设备免许可,国防部官员证实Grok已用于军事
NEA合伙人谈AI IPO、个人代理与投资回报率清算
今年初,硅谷掀起AI使用最大化的风潮,CEO们鼓励员工无限制使用AI工具。然而,账单随之而来:Uber数月烧完年度AI预算,多家公司削减Claude许可证,Meta取消内部排行榜。NEA合伙人Tiffany Luck在最新访谈中深入分析了A
社交平台新变革:算法由你掌控
社交媒体正迎来新一轮进化——Threads、Instagram、TikTok等主流平台相继推出可自定义算法的新工具,让用户能够直接调整推荐内容背后的逻辑,从源头上决定自己看到什么。这项变革意味着算法黑箱开始被撬开,用户从被动接收者转变为算法
深圳新工种:VR操控人形机器人,如《头号玩家》成真
在被称为中国硬件之都的深圳,一家名为IO-AI Tech的公司开创了全新工作方式:工人穿戴VR全身追踪设备,通过身体动作实时控制人形机器人。这种科幻电影般的操作模式不仅降低了机器人应用门槛,更催生了“远程化身”职业的热潮。本文深入解析这一现
Anthropic加盟Frontier碳去除联盟
AI初创公司Anthropic成为首家加入Frontier碳去除联盟的企业。该联盟由Stripe等科技公司发起,近日获得9.15亿美元新承诺,用于支持碳捕获与封存项目。此举标志着AI行业正式深入气候技术领域,引发业界对AI碳足迹与绿色转型的
深度横评
查看全部 →Grok 4材料约束暴跌25.6分 主榜却逆势升至87分
在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。
Grok 4材料约束暴跌25.6分 四模型主榜满分并列
2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束
WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av