赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →英国新规:出版商可“拒绝”AI搜索
英国监管机构要求谷歌为网站出版商提供退出生成式AI搜索的工具,允许他们选择不被AI搜索抓取和生成摘要。该工具将在英国试点,随后全球推广。此举旨在平衡人工智能创新与内容版权保护,标志着监管机构首次直接介入AI搜索领域,引发行业对数字生态新格局
前高盛Meta高管创语音AI,瞄准非洲中东
两位分别来自高盛和Meta的高管联合创办了一家专注于非洲和中东市场的语音AI初创公司。他们的技术栈每天处理超过1.7万通电话,为金融、客服等领域的用户提供本地化语音交互服务。在大型科技公司普遍忽视的市场上,这家公司正以低成本、高适应性的方案
特朗普终签AI行政令:搁置一月后的深夜抉择
在搁置了原定于上月发布的行政命令草案后,特朗普总统于本周一深夜突然签署了备受瞩目的AI行政令。这一决定标志着美国政府正式启动对人工智能技术的全面监管框架,也反映出白宫内部数月来围绕技术安全与经济竞争力之间的激烈博弈。尽管命令具体条款尚未完全
亚马逊搜索将展示AI生成产品图
亚马逊正在测试一项新功能:当用户搜索商品时,搜索结果中会出现AI生成的产品图像,而非实际拍摄的照片。该公司表示,这有助于更快速地匹配用户需求并引导购买。然而,这项技术也引发了关于真实性和误导消费的讨论。本文编译自TechCrunch,深度解
特朗普新AI行政令解读,军用智能眼镜登场
本周二,特朗普总统签署了一项新的AI行政令,距离废除前一项行政令不到两周。新令承诺通过减少监管、促进创新和加强国家安全来推动美国AI发展。同时,智能眼镜在军事领域的最新应用引发关注。本文深度解析特朗普AI政策转向的核心内容,并探讨智能眼镜如
E.ON借助SAP S/4HANA与AI重塑电网现代化
欧洲能源巨头E.ON通过部署SAP S/4HANA系统,将分散的电网数据标准化,为人工智能应用奠定基础。该公司管理着能源电网、客户解决方案和能源基础设施三大领域,日常运维面临巨大的IT投入压力。领导层最初对大规模数字化转型的商业论证存疑,但
Coralogix获2亿美元融资,押注AI Agent监控
Coralogix在不到一年内再次完成2亿美元F轮融资,估值达16亿美元。公司专注于可观测性平台,认为随着AI Agent普及,监控需求将激增。本轮将用于扩展AI驱动的日志分析和安全管理能力,巩固其在智能运维领域的领先地位。
Meta的AI追赶之路:能否缩小与对手的差距?
在人工智能竞赛中,Meta一直被视为追赶者,尽管其开源大模型LLaMA系列引发关注,但外界对其能否真正缩小与OpenAI和Google的差距仍存疑虑。本文深入分析Meta的AI战略:从大规模投资算力基础设施到押注开源生态,再到将AI融入社交
Meta AI代理全球上线,WhatsApp Business按token收费
Meta日前宣布,其面向WhatsApp Business的AI代理功能已面向全球企业开放。该服务基于token使用量计费,企业可根据客户交互量灵活支付费用。AI代理能够自动回复常见问题、处理订单查询等,旨在提升客户服务效率。这一举措标志着
英伟达RTX Spark笔记本:誓要颠覆AI PC
英伟达最新发布的RTX Spark芯片,专为笔记本电脑设计,旨在将“AI PC”从概念变为现实。该系列芯片融合了强大的GPU核心与专用AI加速单元,使笔记本能在本地流畅运行大语言模型、智能图像生成等任务,摆脱云端依赖。英伟达此举有望重塑个人
微软Majorana 2量子芯片:AI代理驱动研发的里程碑
微软最新发布的Majorana 2量子芯片实现量子比特可靠性较第一代提升1000倍,平均寿命达20秒,远超行业微秒级标准。这一突破不仅加速了2029年商用量子计算机的路线图,更展示了AI代理(agentic AI)在芯片研发中的核心作用——
红迪网友用AI智斗世界杯天价票
2026年世界杯门票被黄牛炒至天价,红迪社区r/WorldCup2026Tickets的球迷们另辟蹊径,利用AI工具Claude开发自制票务软件,通过秘密渠道交换门票,让票贩子措手不及。这一草根创新展现了技术民主化的力量,也为大型赛事票务系
深度横评
查看全部 →Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的
WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
11模型WDCD三轮测试:R1 95%承诺,R3 65次直接崩盘
11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding