赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →哈佛毕业演讲呼吁杀死AI 引发支持者反智指责与文化转向辩论
美国时间2026年5月27日,喜剧演员Ronny Chieng在哈佛毕业典礼上呼吁“你们这代使命是杀死AI”,现场获热烈掌声。该言论迅速引发两极反应:AI支持者认为其极端反智,反对者视作文化转向信号。辩论在两天内成为行业焦点,凸显公众对AI
软银豪掷750亿欧元,法国将建巨型数据中心
软银集团宣布将投资高达750亿欧元,在法国建设并运营多达5吉瓦(GW)的新增数据中心容量。此举旨在响应欧洲日益增长的云计算和AI算力需求,同时巩固法国的数字基础设施地位。该投资计划预计在未来十年内分阶段实施,将是欧洲历史上最大的单一数据中心
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
Groq推进新一轮融资 与Nvidia合作扩展AI推理云服务
Groq公司正积极寻求新一轮融资,同时与Nvidia展开合作以扩展其AI推理云服务。此举标志着AI芯片领域竞争进一步加剧,吸引了市场广泛关注。分析人士认为,这将推动推理计算基础设施的创新与发展,对整个AI生态系统产生深远影响。
Figure 03人形机器人突破200小时连续运行 具身智能迈向规模化应用
Figure公司最新人形机器人Figure 03成功实现200小时不间断运行,这一技术突破标志着具身智能从实验室展示阶段转向规模化应用。文章分析其技术原理、行业影响及未来挑战,探讨机器人与AI深度融合对制造业、服务业的潜在变革。
中国三体计算星座建成 全球首个太空AI算力平台上线
全球首个整轨互联太空计算星座正式建成,在轨算力达到5P OPS,可支持1400亿参数模型运行。目前已部署11个AI模型,包括最大天基遥感模型,实现模型在轨部署与更新。这一突破标志着中国在太空计算领域取得重大进展,为未来卫星互联网和空间智能应
2026全球AI算力报告发布:芯片多元演进与绿色集群引领新格局
天津博览会发布《2026全球AI算力报告》,指出AI芯片正从GPU向TPU、NPU多元演进,算力中心迈入超大规模绿色集群阶段。报告强调AI工作站与服务器升级将支撑词元经济及国家战略布局,十大趋势涵盖能效优化、边缘计算融合及国际合作等,为全球
中国AI产业2026转折:超6000家企业与1.2万亿规模引领智能新时代
2026世界智能产业博览会发布《新一代人工智能科技产业发展报告2026》,显示中国AI企业超6000家,核心产业规模突破1.2万亿元。报告指出2026年为产业转折年,大模型、智能体与具身智能加速落地,信息智能与物理智能边界逐渐打破。本文深入
Anthropic发布Claude Opus 4.8并完成650亿美元融资 估值突破9650亿美元
Anthropic于5月29日发布Claude Opus 4.8,重点改进模型诚实性与减少幻觉,同时完成650亿美元融资,估值达9650亿美元,超越OpenAI成为最有价值AI公司。该话题因巨额融资和模型更新引发广泛讨论,互动量高。
深度横评
查看全部 →Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
WDCD 守约排行
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
查看完整守约排行 →
Research Lab
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。