赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
Pramaana Labs获2700万美元种子轮,用形式化验证护航AI可靠性
专注法律、药物发现和税务等高敏感领域,Pramaana Labs获得Khosla Ventures领投的2700万美元种子轮融资,旨在通过形式化验证技术确保AI系统的数学级可靠性,降低关键应用中的灾难性错误风险。
脏活累活:AI实验室付费给机器人数据采集公司XDOF
大型语言模型(LLM)的成功离不开海量文本数据,但物理AI(具身智能)却面临截然不同的困境——机器人需要真实世界的交互数据来学习,而这些数据的采集过程肮脏、繁琐且成本高昂。据TechCrunch报道,已有AI实验室开始雇佣专业公司XDOF来
慢科技革命:终结手机成瘾,拯救注意力
随着数字设备成瘾日益严重,一场“慢科技”运动正在兴起。人们渴望夺回对时间、生活和注意力的控制权,越来越倾向于使用功能简单的手机和克制设计的技术产品。慢科技革命旨在通过减少数字干扰,帮助用户恢复深度思考和真实人际连接。
跳票十月终开售:谷歌百元智能音箱更重AI而非音质
在去年8月首次亮相后,谷歌备受关注的100美元智能音箱(Google Home Speaker)历经10个月延期,终于于今日开启预购。这款设备被视为谷歌AI战略的重要一环——其核心卖点并非传统音箱的音质表现,而是深度集成的Gemini智能助
地球工程现实检验与内感科学新视角
本期《The Download》聚焦两大前沿话题:太阳地球工程从计算机模拟走向真实世界实验,面临现实检验;以及内感科学(interoception)的最新突破,揭示身体感知如何影响情绪、决策与心理健康。本文深入解析这些技术背后的科学进展、争
加拿大养老金巨头押注印度AI数据中心热潮
加拿大养老金巨头宣布以8.2%的股份收购印度科技巨头CtrlS,该公司运营着超过15座数据中心。此举标志着全球资本加速涌入印度AI基础设施领域,印度正成为亚洲数据中心投资的新焦点。本文分析交易背后逻辑、行业趋势及潜在影响。
搭载Gemini的谷歌Home音箱终于来了
时隔六年,谷歌终于推出了新一代智能音箱。这款HomePod风格的全新设备经过重新设计,专门为Gemini聊天机器人打造了专属空间。这意味着用户可以直接与谷歌最强AI对话,获取信息、控制家居,甚至进行多轮复杂交互。本文详细解析新品的诞生背景、
谷歌云生成式AI助力市政规划自动化,英国住房目标加速
英国政府正部署谷歌云生成式AI,以自动化市政委员会的规划操作。地方规划机构面临大量非结构化数据造成的行政积压,拖慢了基础设施建设。通过AI处理繁琐文件,有望加速实现2029年建造150万套新住房的目标。本文分析生成式AI在政务领域的应用潜力
Pinterest推出AI购物实验应用“Ask Pinterest”
Pinterest近日推出一款名为“Ask Pinterest”的实验性AI购物应用,通过对话式界面为用户提供个性化推荐和灵感。该应用整合了Pinterest海量视觉数据和自然语言处理技术,用户只需以对话方式描述需求,即可获得商品推荐、风格
DeepL收购Mixhalo,布局现场活动实时翻译与旧金山办公室
AI翻译巨头DeepL宣布收购现场音频流与翻译公司Mixhalo,并同步在旧金山设立办公室,以加速其美国市场扩张。此次收购将DeepL的神经机器翻译技术与Mixhalo的低延迟音频传输平台结合,有望革新会议、演唱会等大型活动的多语言体验。分
内罗毕企业家力推太阳能,助力肯尼亚2030全民用电
肯尼亚电网大部分已由可再生能源驱动,但仍有25%的社区缺乏集中供电。为实现2030年全民用电目标且不增加碳排放,该国正将希望寄托于离网太阳能。太阳能技术的成本持续下降——几年前一块面板价格约数百美元,如今已大幅降低——为这一转型提供了经济可
特朗普政府出手阻挠xAI燃气轮机环保诉讼
美国全国有色人种协进会(NAACP)起诉马斯克旗下xAI公司,指控其在未获许可的情况下使用燃气轮机为Grok数据中心供电,违反《清洁空气法》。特朗普政府向法院提交动议,试图阻止该诉讼,引发环保与AI发展之间的激烈博弈。此案或成为AI基础设施
深度横评
查看全部 →WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av