赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
欧洲受够了,决心打造自己的AI
欧洲正加速推进自主AI战略,试图摆脱对美国的依赖。虽然短期内构建顶尖模型仍面临算力、资金和人才短板,但一个意想不到的变量——唐纳德·特朗普——可能成为欧洲的转折点。特朗普的政策不确定性、贸易摩擦以及对华技术封锁,正在迫使欧洲重新思考技术主权
热浪侵袭大脑,OpenAI新规前所未有
本周伦敦遭遇危险热浪,科学家正研究高温如何影响大脑功能。与此同时,OpenAI推出了前所未有的使用限制,引发行业讨论。本文编译自MIT Technology Review的每日科技简报,深入解析热浪与大脑的关系以及AI巨头的政策变动。
SAP整合商务数据,驱动AI个性化落地
SAP正将碎片化的商务数据统一为可操作的结构,以在执行层实现AI个性化。企业领导层虽已设定客户需求预测目标,但现有基础设施难以支撑大规模系统化执行,推荐引擎仍推送通用产品列表。本文解析SAP的数据对齐策略,探讨从战略到执行的关键瓶颈,并附行
TechCrunch创始人峰会早鸟票今晚截止
TechCrunch创始人峰会2026的早鸟票优惠将于今晚太平洋时间11:59结束,最高可节省190美元。错过今天,票价将上调。本文为您解析峰会的核心价值与参会策略,助您把握最后时机锁定最佳入场价格。
卡塔尔:FIFA的足球科技试验场
卡塔尔世界杯不仅是一场体育盛会,更是FIFA最新足球技术的终极试验场。从半自动越位技术到智能球场冷却系统,本届赛事展示了科技如何重塑比赛规则、裁判判罚和观赛体验。本文编译自WIRED,深度解析卡塔尔如何成为FIFA的科技实验室,以及这些技术
Anthropic:成功才是AI安全的钥匙?
人工智能公司Anthropic因快速扩张而受到批评,指责其权力过度集中。然而,该公司坚称,恰恰是这种成功——包括影响力、资源和行业话语权——才是确保AI安全发展的关键路径。本文深入分析这一争议背后的逻辑,探讨负责任AI开发的真正含义。
亚马逊弃拍OpenAI电影,AI与影业博弈升级
亚马逊旗下米高梅放弃开发OpenAI题材电影,折射AI与影视行业深度纠缠。与此同时,数据中心工人抗议工作条件,Meta再曝员工数据泄露。本期《Uncanny Valley》解析AI产业与劳工、隐私的碰撞。
白宫施压OpenAI:GPT 5.6推迟公开发布
据报道,OpenAI原计划让GPT 5.6模型以“慢慢滚动”方式进入市场——仅与特定合作伙伴分享,而非全面公测。背后的推手是特朗普政府,后者基于安全考量要求放缓发布节奏。这一做法延续了近年来AI监管的政治化趋势,也再次引发关于“预发布安全审
Patronus AI获5000万美元融资,打造数字世界压力测试AI代理
由前Meta AI研究员创立的Patronus AI,专注于构建“数字世界”来对AI代理进行压力测试。近日该公司宣布获得5000万美元融资,投资者表示市场对这类测试服务的需求近乎“无法满足”。本轮融资将用于扩展团队、加速产品迭代,以应对企业
OpenAI GPT-5.6预览版因政府审查分批发布 安全创新辩论激化
2026年6月25日OpenAI确认GPT-5.6仅限小范围合作伙伴预览,需逐个接受美国政府审查。该决定与Anthropic事件叠加,引发AI界两极分化。批评者认为过度干预将使美国落后中国,支持者强调需防止高风险模型扩散。X平台安全与创新辩
美国政府暂停Anthropic Fable 5模型 安全审查与AI竞争力冲突加剧
2026年6月24-25日,美国政府以出口管制和国家安全为由,要求Anthropic全面暂停Fable 5及Mythos模型全球访问。Anthropic国际负责人确认短期内不会恢复,行业辩论聚焦安全风险与美国AI竞争力损失。
Hasbro要求Peppa Pig童星签署AI配音合同 演员组织公开反对
2026年6月25日,Hasbro要求Peppa Pig儿童配音演员签署新合同,允许AI复制其声音用于所有商业资产。Agents of Young Performers Association发出公开信,指出合同条款不可协商,引发行业对未成
深度横评
查看全部 →Qwen3 Max代码执行暴跌50分,主榜仅降1.5分
Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分,主榜从74.00分微降至72.50分。材料约束升至100.00分,诚信评级从fail转为pass,单日波动幅度达50分。
Claude Opus 4.7 Smoke评测主榜暴跌27.5分,代码执行从100直降50
Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分,代码执行维度从100.00暴跌至50.00分,材料约束保持100.00不变,工程判断从83.40升至100.00,诚信评级维持pass。
4模型执行分暴跌至50,文心一言主榜狂掉34.1分
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名Dee
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
查看完整守约排行 →
Research Lab
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins