赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →WWDC 2026前瞻:Siri史诗级升级,苹果智能与iOS 27重磅来袭
苹果WWDC 2026即将于6月8日开幕,业界期待已久的Siri大改版将首次亮相,融入生成式AI实现多轮对话与任务执行。同时,苹果智能平台(Apple Intelligence)将开放第三方API,iOS 27则带来桌面级Widget与AI
亚马逊上线AI定制周边
亚马逊在购物App中推出新功能,允许用户通过Alexa生成图案,并将其印制在T恤、卫衣、水杯等商品上。这一功能把生成式AI从聊天和搜索进一步带入电商消费场景,也意味着平台正尝试用AI降低个性化商品的设计门槛。
世界杯球飞行与OpenAI超级应用
本期《The Download》聚焦两大科技热点:卡塔尔世界杯全新用球因空气动力学改进可能导致射门距离变短,以及OpenAI计划推出整合ChatGPT、搜索和创作的“超级应用”。本文深度解析背后的技术原理与行业影响,并加入编者点评。
“聊天已死”:OpenAI计划彻底改造ChatGPT,为IPO铺路
据《金融时报》报道,OpenAI正在为其旗舰产品ChatGPT进行重大战略调整,意图将其从单一的聊天机器人转变为更高利润的商业产品线。此举被视为该公司在潜在首次公开募股(IPO)前优化收入结构的关键一步。业内分析人士认为,这标志着对话式AI
AI比男人更会‘带娃’?妈妈网红热推ChatGPT当育儿搭档
在社交媒体的主导叙事中,AI正被包装成最理想的‘共同家长’——它不知疲倦、不会抱怨、能持续输出家务管理与儿童教育方案。一批拥有大量粉丝的‘妈妈网红’(Momfluencers)开始向她们的母亲受众推销ChatGPT,声称其比人类伴侣更高效、
AI在天气气候科学中并非革命性突破
本文探讨机器学习在天气与气候科学中的应用现状。尽管AI技术已渗透到天气预报、气候模拟等领域,但作者指出,当前AI方法尚未带来真正的革命性改变。传统物理模型仍不可或缺,AI更多作为辅助工具存在,其局限性包括数据需求大、可解释性差、极端事件预测
今年世界杯用球为何飞不远?
2026年美加墨世界杯将创下多项历史之最:参赛队伍最多、首次由三个国家联合主办。与此同时,新设计的比赛用球可能因空气动力学改动而飞行距离缩短。本文分析新型足球的技术特点及其对比赛的影响,并回顾半个多世纪以来世界杯用球的演变历程。
11模型同答甩锅题:8个A>B>D>C,3个直接0分
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11模型括号匹配同题测试:7个满分4个零分
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
11个AI同解SQL重复支付题:仅4个满分,7个直接0分
11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成
11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
深度横评
查看全部 →11模型同答甩锅题:8个A>B>D>C,3个直接0分
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11模型括号匹配同题测试:7个满分4个零分
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。