赢政天下 — AI 模型评测 · 变化情报

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instruction decay of 36.5% from Round 1 to Round

2026-05-31 05:55

软银豪掷750亿欧元，法国将建巨型数据中心

软银集团宣布将投资高达750亿欧元，在法国建设并运营多达5吉瓦（GW）的新增数据中心容量。此举旨在响应欧洲日益增长的云计算和AI算力需求，同时巩固法国的数字基础

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment

赢政指数

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 05-31 06:12 NF

哈佛毕业演讲呼吁杀死AI 引发支持者反智指责与文化转向辩论

美国时间2026年5月27日，喜剧演员Ronny Chieng在哈佛毕业典礼上呼吁“你们这代使命是杀死AI”，现场获热烈掌声。该言论迅速引发两极反应：AI支持者认为其极端反智，反对者视作文化转向信号。辩论在两天内成为行业焦点，凸显公众对AI

资讯 05-31 06:00 TC

软银豪掷750亿欧元，法国将建巨型数据中心

软银集团宣布将投资高达750亿欧元，在法国建设并运营多达5吉瓦（GW）的新增数据中心容量。此举旨在响应欧洲日益增长的云计算和AI算力需求，同时巩固法国的数字基础设施地位。该投资计划预计在未来十年内分阶段实施，将是欧洲历史上最大的单一数据中心

评测 05-31 05:55

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

评测 05-31 05:55

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强

评测 05-31 05:54

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%，R3诚信率骤降至30.5%，200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”，Qwen3 Max表现最稳，揭示当前对齐机制的脆弱性。

评测 05-31 05:54

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜，Grok4仅51.67分垫底；R3崩溃率60.6%，满分率仅21.2%。头部模型R3得分普遍高于0.7，尾部直接崩盘，差距集中于高压违约场景。

资讯 05-31 05:54 X

Groq推进新一轮融资与Nvidia合作扩展AI推理云服务

Groq公司正积极寻求新一轮融资，同时与Nvidia展开合作以扩展其AI推理云服务。此举标志着AI芯片领域竞争进一步加剧，吸引了市场广泛关注。分析人士认为，这将推动推理计算基础设施的创新与发展，对整个AI生态系统产生深远影响。

资讯 05-31 05:53 X

Figure 03人形机器人突破200小时连续运行具身智能迈向规模化应用

Figure公司最新人形机器人Figure 03成功实现200小时不间断运行，这一技术突破标志着具身智能从实验室展示阶段转向规模化应用。文章分析其技术原理、行业影响及未来挑战，探讨机器人与AI深度融合对制造业、服务业的潜在变革。

资讯 05-31 05:53 X

中国三体计算星座建成全球首个太空AI算力平台上线

全球首个整轨互联太空计算星座正式建成，在轨算力达到5P OPS，可支持1400亿参数模型运行。目前已部署11个AI模型，包括最大天基遥感模型，实现模型在轨部署与更新。这一突破标志着中国在太空计算领域取得重大进展，为未来卫星互联网和空间智能应

资讯 05-31 05:53 X

2026全球AI算力报告发布：芯片多元演进与绿色集群引领新格局

天津博览会发布《2026全球AI算力报告》，指出AI芯片正从GPU向TPU、NPU多元演进，算力中心迈入超大规模绿色集群阶段。报告强调AI工作站与服务器升级将支撑词元经济及国家战略布局，十大趋势涵盖能效优化、边缘计算融合及国际合作等，为全球

资讯 05-31 05:53 X

中国AI产业2026转折：超6000家企业与1.2万亿规模引领智能新时代

2026世界智能产业博览会发布《新一代人工智能科技产业发展报告2026》，显示中国AI企业超6000家，核心产业规模突破1.2万亿元。报告指出2026年为产业转折年，大模型、智能体与具身智能加速落地，信息智能与物理智能边界逐渐打破。本文深入

资讯 05-31 05:52 X

Anthropic发布Claude Opus 4.8并完成650亿美元融资估值突破9650亿美元

Anthropic于5月29日发布Claude Opus 4.8，重点改进模型诚实性与减少幻觉，同时完成650亿美元融资，估值达9650亿美元，超越OpenAI成为最有价值AI公司。该话题因巨额融资和模型更新引发广泛讨论，互动量高。

深度横评

查看全部 →

横评 05-31

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

横评 05-31

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

横评 05-31

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

WDCD 守约排行

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

查看完整守约排行 →

Research Lab

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding

WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%

WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 237 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

进入 Research Lab →

赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab