赢政天下 — AI 模型评测 · 变化情报

赢政指数

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-06 06:00 TC

Startup Battlefield 200申请三天后截止！

TechCrunch重磅创业竞赛Startup Battlefield 200的申请将于2026年6月8日太平洋时间23:59正式关闭。这是初创公司登上Disrupt舞台、争夺投资与曝光机会的最后机会。大会将于10月在旧金山Moscone

资讯 06-06 04:02 TC

“共聚科技”浪潮：2026年最有趣的创业赌注

当AI融资机器不断打破自身纪录时，一些创始人却在反向而行。Mirror创始人Brynn Putnam为Board项目融资，该项目专注于通过线下游戏和社交体验将人们聚在一起。Cyberdeck创作者们正在制作奇特的DIY电脑，鼓励用户“触碰草

资讯 06-06 04:01 ARS

标普500拒纳SpaceX、OpenAI及Anthropic，封锁百亿被动资金

标普500指数委员会近日做出惊人决定，拒绝将SpaceX、OpenAI和Anthropic纳入指数，这意味着追踪该指数的被动投资基金将无法买入这些股票，三家公司错失数十亿美元资金流入。该决定可能基于公司治理结构或盈利能力等硬性标准，引发对指

资讯 06-06 04:00 TC

谷歌每月豪掷9.2亿美元，租用SpaceX算力资源

据TechCrunch报道，谷歌与SpaceX达成一项惊人协议：谷歌将每月向SpaceX支付9.2亿美元，用于获取计算资源。这一交易发生在SpaceX历史性IPO前一周，引发行业震动。谷歌正为其AI大模型寻找海量算力，而SpaceX的星链卫

资讯 06-06 02:00 TC

当下最有趣初创公司：让你放下手机

在AI融资热潮屡创新高之际，一些创业者选择逆流而上。Mirror创始人Brynn Putnam新创公司Board，聚焦线下游戏和社交体验，让人们回归面对面交流；同时，Cyberdeck创作者打造的奇趣DIY电脑正流行，鼓励用户走出家门。这些

资讯 06-06 00:02 TC

AI的“算力账单”到期：行业急寻成本控制之道

随着大模型规模激增，AI行业的token消耗和算力支出已失控。业内风向从“参数至上”转向“成本治理”——模型压缩、推理优化、专用芯片等策略成为新焦点。本文深度解析这场成本危机背后的驱动因素与应对路径。

资讯 06-06 00:01 WD

微软再失魔力？AI产品遇冷堪忧

微软的AI产品近期销售不振，GitHub也频频陷入麻烦。WIRED专访副总裁Scott Hanselman，探究这家科技巨头是否又一次陷入了追赶模式。本文深入分析微软AI战略的当前困境、背后原因及未来走向。

资讯 06-06 00:00 ARS

Fitbit Air智能手环：被话痨AI教练拖累的好设备

Fitbit Air 作为一款极简、可靠的健身追踪器表现出色，但谷歌强行植入的 AI Health Coach（健康教练）功能却显得多余且令人分心。本文深入评测该设备的设计、功能与AI辅助的实际体验，探讨可穿戴设备是否真的需要一位喋喋不休的

资讯 06-05 22:01 MIT

AI黑客攻破Meta客服，聊天机器人重塑大脑认知

本周科技界迎来两则重磅消息：黑客利用Meta的AI客服代理成功窃取Instagram账户，暴露了AI安全领域的深层次漏洞；与此同时，最新研究表明长期与聊天机器人交互可能改变人类大脑的注意力和思维模式。本文编译自MIT Technology

资讯 06-05 22:00 TC

澳洲数据中心巨头投300亿美元印度建AI数据中心

澳大利亚数据中心运营商AirTrunk宣布将在印度投资300亿美元，建设总容量达5GW的AI数据中心。这一规模空前的投资计划凸显了印度作为全球AI基础设施新兴热点的地位，也反映出亚太地区对算力资源的迫切需求。项目预计分阶段推进，将采用液冷等

资讯 06-05 20:02 MIT

Meta黑客事件：AI安全神话的破灭

2026年6月5日，404 Media报道称攻击者利用Meta的AI客服助手成功窃取Instagram账户，甚至入侵了已废弃的奥巴马白宫账户并发布亲伊朗内容。这起事件揭示了一个深刻问题：AI安全远不止于防御已知威胁，更在于防范那些未被写入规

资讯 06-05 20:01 WD

苹果为何要在下一代AirPods中加入摄像头？

据WIRED报道，苹果正考虑在下一代AirPods中集成摄像头，以增强空间音频和手势控制等功能。然而，从电池续航到隐私保护，这一设想面临重重障碍。本文深入分析了技术挑战与行业趋势，并探讨了摄像头入耳式设备的可能性与局限。

深度横评

查看全部 →

横评 06-05

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

横评 06-04

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

横评 06-03

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的

WDCD 守约排行

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

查看完整守约排行 →

Research Lab

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a

3大模型翻译对决：第23周质量评测，gpt-o3 以 9 分领跑

本周共翻译 270 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding

进入 Research Lab →

赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab