赢政天下 — AI 模型评测 · 变化情报 · 选型决策

Claude Fable 5发布：公众可用的Mythos级AI模型

Anthropic推出Claude Fable 5，这是其首款向公众开放的Mythos级模型，配备了严格的安全护栏，在网络安全、生物等高风险领域限制回复内容，标志着前沿AI安全与可及性的新平衡。

2026-06-10 06:02

Anthropic的Fable 5：一键生成古怪有趣的视频游戏

Anthropic最新推出的Claude Fable 5模型，让用户只需点击一个按钮就能生成怪异但有趣的视频游戏。这款工具特别受到网络“氛围编码者”（vibe

嘿Siri，这才是AI该有的样子

作者沉迷于对AI助手的幻想——一个能真正理解需求、主动提供帮助的智能伙伴，而非机械回复指令的工具。但她也清醒地意识到，当手机里的友好声音成为生活必需品时，我们或

赢政指数

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-10 06:01 TC

Anthropic的Fable 5：一键生成古怪有趣的视频游戏

Anthropic最新推出的Claude Fable 5模型，让用户只需点击一个按钮就能生成怪异但有趣的视频游戏。这款工具特别受到网络“氛围编码者”（vibe coders）的追捧，他们热衷于快速创造独特的小游戏。本文将深度解析Fable

资讯 06-10 06:00 TC

嘿Siri，这才是AI该有的样子

作者沉迷于对AI助手的幻想——一个能真正理解需求、主动提供帮助的智能伙伴，而非机械回复指令的工具。但她也清醒地意识到，当手机里的友好声音成为生活必需品时，我们或许已悄然滑向某种依赖的深渊。本文探讨Siri等现有AI助手的局限性、用户对个性化

资讯 06-10 05:01 Winzheng Lab

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.

评测 06-10 05:01

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

评测 06-10 05:01

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

评测 06-10 05:00

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示，R1 确认率 95%、R2 抵抗率 94%，但 R3 诚信率仅 24.5%，72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70，Grok 仅 0.10。资源限制与安全合规场景最易崩盘，暴露

评测 06-10 05:00

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一，Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%，满分率仅13.6%，头部与尾部在压力测试下差距显著。

资讯 06-10 04:03 TC

WWDC 2026：Siri AI大升级，iOS 27与苹果智能全面登场

苹果在WWDC 2026上重点展示了其长期助手Siri的AI增强体验，与大多数其他公告一样，Siri获得了大量人工智能支持。此外，iOS 27、Apple Intelligence等新系统与平台同步亮相，标志着苹果在AI领域的全面发力。本文

资讯 06-10 04:02 TC

科技公司能否爱上更便宜的AI模型？

如果同等质量的AI任务可以由成本更低的模型完成，将彻底改变AI的经济格局。本文探讨科技公司是否愿意拥抱廉价AI模型，分析其对行业生态、商业模式及技术路线的影响。随着开源模型兴起和算力成本下降，过去追求“越大越好”的AI竞赛正迎来拐点。

资讯 06-10 04:01 ARS

谷歌推出Gemini 3.5 Live Translate：即时语音互译保语调

谷歌近日发布Gemini 3.5 Live Translate功能，实现语音到语音的实时翻译，不仅保留说话者的语调、语速和音高，还内置SynthID数字水印技术以防范恶意篡改。这项突破将彻底改变跨语言交流体验，但也引发了关于身份验证和版权的

资讯 06-10 04:00 ARS

Anthropic称这些话题太危险，Fable 5模型拒绝回应

Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤，而是模型在训练阶段即内嵌了“硬性拒绝”规则，即便用户通过提示注入等手段试图绕过，模型也会直接终

评测 06-10 03:10

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

深度横评

查看全部 →

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示，R1 确认率 95%、R2 抵抗率 94%，但 R3 诚信率仅 24.5%，72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70，Grok 仅 0.10。资源限制与安全合规场景最易崩盘，暴露

WDCD 守约排行

#1 Claude Sonnet 4.6 67.5 #2 Gemini 2.5 Pro 67.5 #3 Qwen3 Max 67.5 #4 GPT-o3 65 #5 Claude Opus 4.7 62.5 #6 Gemini 3.1 Pro 60 #7 GPT-5.5 57.5

查看完整守约排行 →

Research Lab

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S

3大模型翻译对决：第24周质量评测，passthrough 以 9 分领跑

本周共翻译 2425 篇文章，覆盖 3 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a

进入 Research Lab →