赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →Flex推出JetCool液冷服务器方案 针对高密度AI工作负载
Flex旗下JetCool于2026年6月27日前24小时内发布一站式液冷服务器解决方案。该方案针对高密度AI工作负载,提供数据中心冷却性能、可靠性和部署速度的提升,直接作用于企业AI硬件基础设施建设。
SpaceX官宣Starmind轨道AI数据中心 2027年发射原型机
SpaceX于2026年6月24日确认Starmind项目,计划发射搭载处理器与太阳能阵列的AI卫星,在轨完成计算而非仅传输数据。Starship单次运载30至50颗卫星,原型机定于2027年初发射,年底启动量产。该系统针对地面数据中心土地
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recording an average inst
Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降
本期WDCD测试中8个模型全部上涨、零下降,Claude Opus 4.7增幅达19.8分,Gemini 3.1 Pro以93.57分登顶,Grok 4紧随其后92.86分。
WDCD横评:安全合规成最大短板,11模型最高仅3.57分
WDCD五场景测试显示安全合规全体得分最低,最高仅deepseek-v4-pro 3.57/4,claude-sonnet-4.6垫底2.57/4;gemini-3.1-pro在数据边界与资源限制双4分,grok-4在业务规则独得4分,do
Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性
WDCD三轮测试显示,R1平均确认率0.95,R2抵抗率0.82,R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃,而Claude Sonnet 4.6与GPT-o3各崩6次(17.1%),多约束场景成为最大崩盘诱因
Gemini 3.1 Pro 93.57分 WDCD守约第一 文心一言4.5仅75.71分垫底
Gemini 3.1 Pro 以 WDCD 93.57 分位居首位,文心一言 4.5 以 75.71 分垫底。头部三名 R3 得分均超 1.69,尾部两名 R3 仅 1.34-1.54,R3 崩溃率达 8.8%。
Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分 代码执行从100降至50
在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜从96.45分跌至70.52分,代码执行维度从100.00直接腰斩至50.00。材料约束反而小幅上升3.5分,工程判断保持满分,诚信评级维持pass。
Claude Opus 4.7代码执行从100暴跌至50 主榜单日掉25.7分
赢政指数今日Smoke评测中,Claude Opus 4.7代码执行从100.00分跌至50.00分,主榜从97.12分降至71.47分,单日暴跌25.7分。材料约束小幅回升,工程判断和任务表达保持高位,诚信评级仍为pass。
赢政指数Smoke周报:文心一言4.5下滑37.2分,多模型波动超28
2026-W26 Smoke日测数据显示,文心一言4.5从98.74跌至61.52,趋势-37.2;Claude Sonnet 4.6、Claude Opus 4.7波动分别达28.4和28.5。豆包Pro持平,诚信评级改善模型仅两家。数据
豆包Pro 98.61分登顶 Smoke评测,Claude执行-50分暴跌
2026-06-28 Smoke评测中,豆包Pro以执行100分、约束96.9分拿下主榜98.61分首位。Claude Opus 4.7与Sonnet 4.6执行从昨日100分骤降至50分,主榜分别下跌25.7分和25.9分。Gemini
苹果Vision Pro负责人跳槽OpenAI,硬件野心再升级
据报道,苹果负责Vision Pro头显的副总裁Paul Meade即将离职,加入OpenAI的硬件团队。这一人事变动引发行业广泛关注,标志着OpenAI在拓展硬件领域迈出重要一步,同时也让苹果的混合现实业务未来充满变数。本文深度分析此次跳
深度横评
查看全部 →Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降
本期WDCD测试中8个模型全部上涨、零下降,Claude Opus 4.7增幅达19.8分,Gemini 3.1 Pro以93.57分登顶,Grok 4紧随其后92.86分。
WDCD横评:安全合规成最大短板,11模型最高仅3.57分
WDCD五场景测试显示安全合规全体得分最低,最高仅deepseek-v4-pro 3.57/4,claude-sonnet-4.6垫底2.57/4;gemini-3.1-pro在数据边界与资源限制双4分,grok-4在业务规则独得4分,do
Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性
WDCD三轮测试显示,R1平均确认率0.95,R2抵抗率0.82,R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃,而Claude Sonnet 4.6与GPT-o3各崩6次(17.1%),多约束场景成为最大崩盘诱因
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Gemini 3.1 Pro
93.6
#2
Grok 4
92.9
#3
Claude Opus 4.7
89.3
#4
DeepSeek V4 Pro
89.3
#5
Qwen3 Max
88.6
#6
Gemini 2.5 Pro
87.9
#7
豆包 Pro
81.4
查看完整守约排行 →
Research Lab
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recor
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。