赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
OpenAI携手博通推出首款定制芯片“Jalapeño”
据TechCrunch报道,OpenAI于2026年6月24日发布了其首款定制处理器“Jalapeño”,由博通(Broadcom)代工。该芯片专为AI推理系统设计,旨在优化性能与能效,减少对英伟达GPU的依赖。Jalapeño的推出标志着
白宫换将:Anthropic CEO Amodei被指“怪人”遭替换
据WIRED报道,在白宫关键会议上,Anthropic联合创始人兼CEO Dario Amodei被一位官员称为“怪人”,随后其联合创始人Tom Brown取代了他参与后续高层会谈。这一变动折射出白宫对AI安全治理态度的转变,也凸显了科技领
极端热浪席卷欧洲,多座电厂被迫停运
欧洲正经历创纪录的极端高温,民众纷纷开启风扇和空调,电网承受极限压力。然而,部分电厂却无法并网供电。6月23日,法国经历了自1947年有记录以来最热的一天。高温导致河流水温升高,冷却水不足,核电站和水电站被迫减产或停运,进一步加剧电力供需矛
AI网络数据基础设施层崛起
AI蓬勃发展,新用例层出不穷。企业要充分利用AI潜力,需大规模数据支持。然而,许多关键信息被阻断或非结构化,限制了AI模型的使用。本文探讨了网络基础设施的原始设计局限,并分析了新兴数据基础设施层如何为AI提供高质量、可访问的数据,推动下一波
Stripe、Anthropic与OpenAI联手攻克呼吸道感染
普通感冒每年侵袭每个人多次,却始终没有预防方法。如今,支付公司Stripe联合其创始人兄弟Patrick和John Collison,联合AI公司Anthropic和OpenAI,共同资助一项旨在阻止呼吸道感染的新项目。该项目利用AI技术加
工程特刊:以人类智慧重塑世界
MIT Technology Review旗下每日简报《The Download》推出全新“工程特刊”,强调通过人类创造力应对技术挑战。本期聚焦工程领域的雄心与突破,探讨如何利用有限资源实现最大变革。文章深入分析了工程在气候、健康、基础设施
高通豪掷近40亿美元,收购AI芯片初创公司Modular
据WIRED报道,高通公司(Qualcomm)已达成最终协议,以近40亿美元收购AI芯片软件初创公司Modular。这笔交易是2026年芯片行业规模最大的收购之一,标志着高通在AI时代加速布局芯片设计软件生态。Modular以其创新的AI编
早鸟价倒计时3天!TechCrunch创始人峰会2026门票立省$190
TechCrunch创始人峰会2026的早鸟票将于6月26日太平洋时间晚11:59截止,仅剩3天可享受高达190美元的折扣。本次峰会将汇聚全球顶尖创始人、投资者和科技领袖,探讨AI、创业融资、全球化等热点议题。本文为您解析峰会亮点、参会价值
Anthropic将AI助手直接植入Slack频道
Anthropic 在 Slack 中推出 Claude Tag 测试版,企业用户可通过 @Claude 将 AI 拉入群聊,实现在工作线程中直接委派任务、分析文档、生成回复。这一功能打破了传统独立聊天框的局限,让 AI 融入实时协作流程,
太阳能高空飞艇:从平流层点亮互联网
新墨西哥公司Sceye计划于今年8月发射一艘长约60米的银色飞艇,它将在太平洋上空约18公里的平流层停留,利用太阳能提供互联网接入。该平台旨在为偏远地区带来高速连接,同时作为环境监测的空中基站。这项技术有望填补地面基站与卫星之间的空白,但面
三星解除AI禁令,员工全面接入ChatGPT Enterprise与Codex
三星电子宣布扩大员工对ChatGPT Enterprise和Codex的访问权限,涵盖韩国全体三星电子员工及全球设备体验(DX)部门员工,涉及智能手机、消费电子和家电业务。此举标志着三星在经历早期AI工具限制后,正式转向积极拥抱生成式AI,
MoEngage押注营销未来:百万AI代理赋能每个客户
印度营销科技公司MoEngage通过全现金交易获得一项突破性技术,该技术能够为每个客户分配专属AI代理。公司认为,未来的营销将依赖数百万个AI代理实现超个性化互动,彻底改变客户体验。此举不仅强化了MoEngage在营销自动化领域的领先地位,
深度横评
查看全部 →Qwen3 Max代码执行暴跌50分,主榜仅降1.5分
Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分,主榜从74.00分微降至72.50分。材料约束升至100.00分,诚信评级从fail转为pass,单日波动幅度达50分。
Claude Opus 4.7 Smoke评测主榜暴跌27.5分,代码执行从100直降50
Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分,代码执行维度从100.00暴跌至50.00分,材料约束保持100.00不变,工程判断从83.40升至100.00,诚信评级维持pass。
4模型执行分暴跌至50,文心一言主榜狂掉34.1分
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名Dee
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
查看完整守约排行 →
Research Lab
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins