赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -23.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -23.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →Google上诉德国AI概览责任裁决,生成式AI平台法律风险凸显
德国法院裁定Google需为AI概览中的虚假声明承担责任,Google随即提起上诉。此案聚焦生成式AI内容的平台责任争议,涉及信息准确性与法律边界。案件凸显AI技术快速发展下监管滞后问题,可能影响全球科技企业内容审核策略与合规成本。业界关注
NVIDIA与SpaceX深化AI合作:太空探索迈入智能新纪元
SpaceX完成IPO后,NVIDIA公开祝贺并重申双方长达十年的AI与加速计算合作,强调太空技术与人工智能的深度融合。此举引发行业广泛关注,相关话题浏览量与互动量显著上升。文章将从合作背景、技术应用、市场影响等多维度进行剖析,探讨这一动态
AI Agent安全新焦点:Kaggle竞赛启动与DeepMind多智能体治理讨论
Kaggle近日启动AI Agent安全竞赛,吸引全球开发者参与。Google DeepMind同步探讨大规模多智能体交互的治理框架。行业关注点正从单一模型安全转向可靠持久Agent系统,凸显安全在AI演进中的核心地位。此次事件引发技术界对
Moonshot AI开源Kimi-K2.7-Code:推理效率提升30%,中文编码AI迎来新突破
Moonshot AI正式开源Kimi-K2.7-Code模型,该模型在推理阶段token消耗减少约30%,显著提升编码效率与智能水平。此举在中文AI社区引发热烈讨论,有望推动开源编码工具的进一步发展,为开发者提供更高效的智能辅助。
OpenAI收购Ona强化Codex平台,助力长期AI Agent生态构建
OpenAI正式宣布收购Ona公司,将其安全云执行与编排技术整合至Codex平台,支持客户控制的持久Agent环境。此举旨在推动AI Agent从短期任务向长期复杂工作流演进,标志着OpenAI在企业级AI应用领域的战略深化。收购后,Cod
OpenAI面临多州检察长联合调查,AI巨头合规压力升级
OpenAI正接受美国多个州检察长联合调查,焦点集中在业务运营与合规问题上。在与Anthropic等竞争对手激烈角逐的背景下,此次调查引发行业广泛关注。文章分析调查背景、潜在影响及AI企业面临的监管挑战,强调合规对行业可持续发展的重要性。
Anthropic发布Claude Fable 5:美国政府限制引发模型访问争议
Anthropic近日推出Claude Fable 5系列模型,却因美国政府命令限制外国用户访问Mythos 5和Fable 5,导致模型暂时下线。此举引发AI安全与开放性辩论,相关X帖文浏览量达4700万,业界关注安全警告可能带来的反噬效
亚马逊CEO疑提前预警Anthropic模型风险,致全球断供
据TechCrunch独家报道,亚马逊CEO安迪·贾西(Andy Jassy)可能在私下向AI安全公司Anthropic提出了对两个先进模型的安全担忧,促使该公司于上周五紧急切断全球范围内对这两个模型的访问。这一事件发生在美国政府即将出台更
Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化
今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。
Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
11模型代码执行集体暴跌,GPT-5.5 95.24分领跑Smoke轻量榜
2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行
深度横评
查看全部 →Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化
今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。
Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Grok 4
74.2
#2
Qwen3 Max
67.2
#3
Gemini 2.5 Pro
66.4
#4
文心一言 4.5
64.8
#5
Gemini 3.1 Pro
64.8
#6
GPT-5.5
64.8
#7
豆包 Pro
62.5
查看完整守约排行 →
Research Lab
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time,
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a