赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →法拉利联手IBM,用AI打造F1超级粉丝
一级方程式赛车的粉丝体验正在被AI重塑。法拉利车队携手IBM,利用人工智能技术分析海量比赛数据、生成个性化内容,甚至让粉丝在虚拟世界中与车手互动。TechCrunch独家探访这场科技与赛车文化的深度融合。
马斯克放弃地球太阳能:全力押注天然气与太空数据中心
埃隆·马斯克旗下xAI全力押注天然气发电,而SpaceX则痴迷于轨道数据中心。这与他曾经承诺的“太阳能电力经济”背道而驰。从AI算力饥渴到太空基础设施,马斯克的能源战略转向折射出清洁能源理想与现实商业逻辑之间的深刻矛盾。本文编译自TechC
AI技术复活坠机飞行员声音,NTSB紧急封锁系统
近日,有用户利用AI技术对一段驾驶舱录音的频谱图进行分析,成功重构出已故飞行员的声音,这一行为迫使美国国家运输安全委员会(NTSB)暂时关闭其案件档案系统。该事件引发了对AI技术滥用和航空安全数据保护的广泛讨论。
Qwen3.7-Max发布:代理时代旗舰模型支持35小时无干预内核优化
Qwen3.7-Max作为全新旗舰模型面向代理时代推出,支持端到端编码、多文件重构及35小时无干预内核优化任务,工具调用超1000次。API已上线供开发者测试。本文从winzheng.com Research Lab视角分析其技术原理、影响
NVIDIA与Dell发布AI Factory更新 企业AI部署加速但架构依赖风险并存
NVIDIA与Dell于5月21日前后联合发布Dell AI Factory重大更新,该全栈平台支持企业级自主AI代理,从桌面工作站延伸至数据中心机架,采用NVIDIA Vera Rubin架构。文章基于已确认事实,分析其创新点与潜在不足,
密歇根小镇否决OpenAI数据中心后遭起诉 地方主权与科技扩张冲突
密歇根Saline Township以4-1投票否决OpenAI与Oracle的160亿美元数据中心项目后,开发商提起诉讼,小镇因无力应诉陷入争议。事件凸显地方主权与AI基础设施扩张的张力,需从执行与材料约束维度审视技术部署的可持续性,而非
注水ARR:VC与创始人联手加冕AI独角兽
AI初创公司为粉饰增长,刻意扭曲传统年度经常性收入(ARR)指标,而风投机构对此心知肚明却鲜有纠正。本文揭示这一“数字游戏”背后的利益博弈——双方如何通过注水数据共同编织增长神话,以及这种短期繁荣可能埋下的行业泡沫隐患。
谷歌用迪斯科球图标闪亮登场:你们真的还想要这个?
谷歌宣布,Pixel手机用户现在可以将整个主屏幕变成迪斯科球效果,通过动态图标和闪烁背景实现。这一功能源于用户对复古风格的追捧,但也引发了对实用性和审美疲劳的争议。本文翻译自TechCrunch,并加入行业背景和编者分析。
SpaceX递交IPO申请:登陆火星的财务赌注
SpaceX正式提交S-1文件申请上市,文件中披露了高达28万亿美元的总可寻址市场、与火星殖民挂钩的薪酬方案以及成为美国史上最大IPO的估值目标。然而,36页的风险因素也揭示了这场太空冒险的财务不确定性。本文编译自TechCrunch,深度
马斯克1.75万亿美元IPO声震云霄
SpaceX终于提交S-1文件,启动史上最大IPO。36页风险因素揭示前所未有的野心:28万亿美元可触及市场、与建立火星殖民地挂钩的薪酬方案,以及1.75万亿美元估值目标。文件不仅讲述火箭故事,更描绘了人类多行星文明的蓝图。
美国紧急叫停AI复刻已故飞行员声音:法律漏洞与伦理危机
近日,美国互联网上出现利用AI语音克隆技术复原已故飞行员驾驶舱录音的行为,直接挑战《纽约时报》与NTSB禁止公开驾驶舱音频的法律禁令。美国政府紧急介入,试图封锁相关网站和工具,但技术手段与法律围堵面临巨大困难。这一事件引发对AI技术伦理、航
Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
深度横评
查看全部 →Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
Grok 4材料约束暴跌21.3分,代码执行却暴涨50,主榜反升17.9
Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。
材料约束集体暴跌20分,Grok 4 81.55分险胜Claude登顶
今日Smoke评测显示,11款主流模型材料约束维度普遍暴跌18-29分,导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一,但约束仅59分且标warn;豆包Pro主榜暴跌37.2分,执行从高位直接腰斩至50分。核心问题集中在材料约
WDCD 守约排行
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
查看完整守约排行 →
Research Lab
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with
3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%
WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an av