赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
世代烟草禁令:一个母亲的支持与质疑
英国即将实施的世代烟草禁令旨在逐步消灭吸烟,但新研究表明其效果可能有限。作为两个女孩的母亲,我深知吸烟的危害,然而,这项禁令真的能如愿保护下一代吗?本文探讨禁令的潜在局限、公共健康策略的复杂性,并思考我们是否真正准备好了替代方案。
武田制药6亿美元押注AI药物发现
日本制药巨头武田(Takeda)与香港英科智能(Insilico Medicine)达成战略合作,将利用AI技术加速早期药物发现。协议总价值达6亿美元,涵盖多个治疗领域,但未披露具体靶点。武田将获得英科智能的Pharma.AI平台访问权,该
WDCD横评:业务规则场景最低1.55分 grok-4安全合规3.86夺冠
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与
R3诚信率仅30.2%:11模型三轮锚点题44次完全崩溃
v2锚点题数据显示,R1确认率99%,R2抵抗率63%,R3诚信率仅30.2%,275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守,Grok4和Claude系列R3崩溃率控制在8%以内,展现不同模型在多轮压力下
Grok 4 91.20 分登顶 WDCD 守约榜,Qwen3 Max 57.48 分垫底拉开 33.72 分差距
Grok 4 以 91.20 分位列 WDCD 守约排行榜第一,Qwen3 Max 57.48 分垫底,头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%,R3 崩溃率达 16%,v2 锚点题 R3 得分成为区分关键。
WDCD Run #211: Grok 4 Leads with Just -13% Instruction Decay as GPT-o3 Collapses at -75%
WDCD Run #211 (2026-07-03) benchmarked 11 models on multi-turn commitment integrity, with Grok 4 taking the top spot at
扎克伯格内部坦言:AI智能体进展未达预期
据报道,Meta CEO马克·扎克伯格在一次内部会议上对员工表示,公司AI智能体的开发速度并未达到他最初的期望。这一言论揭示了Meta在AI领域面临的挑战,也引发了业界对大型科技公司AI应用落地瓶颈的讨论。本文编译自TechCrunch独家
AI基础设施股遭遇大幅回调,市场重估AI热潮可持续性
多只AI基础设施相关股票从高点大幅回落,CRWV跌超55%、AAOI跌47%,引发市场对“AI交易熊市”的讨论。投资者开始重新评估AI hype的真实价值与买入时机,行业动态显示AI热潮进入调整阶段。
NVIDIA Nemotron双塔扩散模型发布,推理速度提升2.42倍保留高保真
NVIDIA推出Nemotron-Labs-TwoTower扩散语言模型,通过将30B参数模型拆分为双塔并行生成token,实现2.42倍速度提升,同时保留98.7%质量。该技术为大模型推理优化提供新方向,相关X帖获数千点赞,引发业界关注。
微软成立25亿美元AI采用公司 推动企业从模型转向落地
微软宣布成立新公司并投入25亿美元,帮助企业实现AI技术的部署与集成。此举被视为AI产业从模型研发竞赛转向实际商业落地的关键信号,在Reuters和TechCrunch等媒体引发广泛讨论,标志着科技巨头开始重点关注AI的规模化应用与价值创造
美国解除出口管制后,Anthropic恢复Fable模型并推出Claude Sonnet 5
美国解除出口管制后,Anthropic宣布恢复Fable和Mythos模型,同时推出定价更低的Claude Sonnet 5,其性能接近Opus级别。NVIDIA BioNeMo平台加速科学应用推广,业界对模型解禁与AI监管动态展开热议。本
OpenAI拟向美政府捐赠5%股权:AI巨头与政治权力的新博弈
OpenAI正与特朗普政府商讨向美国主权财富基金捐赠约5%股权,估值420-430亿美元。此举旨在分享AI技术收益并清除监管障碍,在X平台引发广泛讨论。Sam Altman表示该模式或将推广至其他AI企业,标志着科技公司与政府关系进入新阶段
深度横评
查看全部 →WDCD横评:业务规则场景最低1.55分 grok-4安全合规3.86夺冠
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与
R3诚信率仅30.2%:11模型三轮锚点题44次完全崩溃
v2锚点题数据显示,R1确认率99%,R2抵抗率63%,R3诚信率仅30.2%,275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守,Grok4和Claude系列R3崩溃率控制在8%以内,展现不同模型在多轮压力下
Grok 4 91.20 分登顶 WDCD 守约榜,Qwen3 Max 57.48 分垫底拉开 33.72 分差距
Grok 4 以 91.20 分位列 WDCD 守约排行榜第一,Qwen3 Max 57.48 分垫底,头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%,R3 崩溃率达 16%,v2 锚点题 R3 得分成为区分关键。
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Grok 4
91.2
#2
Gemini 3.1 Pro
79.1
#3
GPT-o3
76.6
#4
Claude Opus 4.7
72.2
#5
GLM-4.6
71.8
#6
Claude Sonnet 4.6
70
#7
DeepSeek V4 Pro
67.8
查看完整守约排行 →
Research Lab
WDCD Run #211: Grok 4 Leads with Just -13% Instruction Decay as GPT-o3 Collapses at -75%
WDCD Run #211 (2026-07-03) benchmarked 11 models on multi-turn commitment integrity, with Grok 4 tak
WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field
WDCD Run #207 (2026-07-01) measured multi-turn commitment across 11 frontier models, recording an av
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 376 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。