赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →Claude Fable 5发布:公众可用的Mythos级AI模型
Anthropic推出Claude Fable 5,这是其首款向公众开放的Mythos级模型,配备了严格的安全护栏,在网络安全、生物等高风险领域限制回复内容,标志着前沿AI安全与可及性的新平衡。
Anthropic的Fable 5:一键生成古怪有趣的视频游戏
Anthropic最新推出的Claude Fable 5模型,让用户只需点击一个按钮就能生成怪异但有趣的视频游戏。这款工具特别受到网络“氛围编码者”(vibe coders)的追捧,他们热衷于快速创造独特的小游戏。本文将深度解析Fable
嘿Siri,这才是AI该有的样子
作者沉迷于对AI助手的幻想——一个能真正理解需求、主动提供帮助的智能伙伴,而非机械回复指令的工具。但她也清醒地意识到,当手机里的友好声音成为生活必需品时,我们或许已悄然滑向某种依赖的深渊。本文探讨Siri等现有AI助手的局限性、用户对个性化
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.
WWDC 2026:Siri AI大升级,iOS 27与苹果智能全面登场
苹果在WWDC 2026上重点展示了其长期助手Siri的AI增强体验,与大多数其他公告一样,Siri获得了大量人工智能支持。此外,iOS 27、Apple Intelligence等新系统与平台同步亮相,标志着苹果在AI领域的全面发力。本文
科技公司能否爱上更便宜的AI模型?
如果同等质量的AI任务可以由成本更低的模型完成,将彻底改变AI的经济格局。本文探讨科技公司是否愿意拥抱廉价AI模型,分析其对行业生态、商业模式及技术路线的影响。随着开源模型兴起和算力成本下降,过去追求“越大越好”的AI竞赛正迎来拐点。
谷歌推出Gemini 3.5 Live Translate:即时语音互译保语调
谷歌近日发布Gemini 3.5 Live Translate功能,实现语音到语音的实时翻译,不仅保留说话者的语调、语速和音高,还内置SynthID数字水印技术以防范恶意篡改。这项突破将彻底改变跨语言交流体验,但也引发了关于身份验证和版权的
Anthropic称这些话题太危险,Fable 5模型拒绝回应
Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤,而是模型在训练阶段即内嵌了“硬性拒绝”规则,即便用户通过提示注入等手段试图绕过,模型也会直接终
Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
告别FAANG,MANGOS时代登场
随着SpaceX、Anthropic和OpenAI等新兴巨头蓄势待发,科技行业正迎来新一轮版图重塑。曾统治华尔街的FAANG(Facebook、Apple、Amazon、Netflix、Google)组合被颠覆,取而代之的是以微软、Anth
Anthropic发布Claude Fable 5:公众可用的Mythos级模型
Anthropic于今日正式推出Claude Fable 5,这是其首个面向公众开放的Mythos级模型。该模型在网络安全、生物学等高风险领域设置了严格的安全护栏,旨在平衡先进AI能力与负责任部署。本文深度解析Fable 5的技术突破、安全
Anthropic推双版本AI:Mythos 5赋能伙伴,Fable 5保障公众
Anthropic宣布发布两款新版Claude模型:面向可信组织的Claude Mythos 5,提供更强的网络攻防能力;以及面向公众的Claude Fable 5,通过严格安全限制确保无法被用于网络攻击。这一双轨策略折射出AI安全领域日益
深度横评
查看全部 →Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢
11模型同答甩锅题:8个A>B>D>C,3个直接0分
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
WDCD 守约排行
#1
Claude Sonnet 4.6
67.5
#2
Gemini 2.5 Pro
67.5
#3
Qwen3 Max
67.5
#4
GPT-o3
65
#5
Claude Opus 4.7
62.5
#6
Gemini 3.1 Pro
60
#7
GPT-5.5
57.5
查看完整守约排行 →
Research Lab
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a