赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →入门级工作危机逼近,亟待解决
尽管AI尚未引发大规模失业,发达国家整体就业保持稳定,但表面之下隐藏着一个令人不安的趋势:入门级工作——职业阶梯的第一级——正被悄然削弱。本文深入分析这一潜在危机,探讨AI如何改变劳动力市场结构,以及政策制定者与企业应采取哪些措施来避免“职
AI失业恐慌:一场现实检验
摘要:白领岗位正被AI批量取代?科技行业裁员潮(Coinbase、Meta、思科)似乎预示着知识工作者的末日。但《麻省理工科技评论》作者戴维·罗特曼提醒:在辞职前请三思——历史表明,技术驱动的就业恐慌往往夸大其词。AI或许会重塑工作,但“大
美执法部门警告“反科技极端主义”升温
随着美国民众对AI取代工作、数据中心扰民的焦虑日益加剧,联邦执法人员正将一种新型威胁列入重点监控清单。据WIRED获得的内部文件显示,国土安全部与联邦调查局已联合发布预警,将针对科技企业及AI基础设施的破坏行为定义为“反科技极端主义”,并指
教皇利奥发布AI通谕呼吁解除武装 大科技权力集中引发反弹
2026年5月,教皇利奥发布首份以人类保障为主题的通谕《Magnifica Humanitas》,明确要求AI"解除武装",禁止战争应用,并批评数据与算力集中在少数科技企业手中。通谕同时为教会迟迟未谴责奴隶制道歉,并指出数字经济可能制造新形
ClickUp大规模裁员:AI Agent正在取代白领工作
成立九年的项目管理初创公司ClickUp宣布用数千个AI Agent替换数百名员工,引发行业震动。这一决策不仅揭示了AI在职场中的渗透速度远超预期,更预示着未来工作模式的根本性变革。本文编译自TechCrunch深度报道,探讨这场裁员背后的
Claude Sonnet 4.6材料约束暴跌22分,代码执行却冲到100
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Claude Opus 4.7主榜暴跌8.2分,材料约束单日崩18.3
Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。
Gemini 2.5 Pro 主榜暴跌35.6分,DeepSeek V4 Pro 登顶 Smoke 评测
今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧
早鸟倒计时5天!TechCrunch Disrupt 2026门票省$410
TechCrunch Disrupt 2026大会将于旧金山举行,早鸟优惠价截止至5月29日23:59(太平洋时间),最高可节省410美元。本文编译该活动亮点,分析科技大会趋势,并提醒创业者把握最后省钱机会。
Startup Battlefield 200申请截止在即,5月27日前抓住机遇
知名科技媒体TechCrunch旗下Startup Battlefield 200大赛申请截止日期为5月27日。优胜者将获得VC直接对接、全球曝光机会、TechCrunch专题报道以及10万美元奖金。这是初创企业加速成长的黄金通道,仅剩数天
教皇AI通谕:借科技迷雾反思权力垄断
教皇利奥十四世发布首份通谕,以人工智能为棱镜,直指当代社会深层痼疾:权力过度集中、民主制度遭侵蚀、科技精英按自身利益重塑世界。本文编译TechCrunch深度分析,揭示通谕背后真正关切——AI只是引子,症结在于如何让技术服务于人类共同福祉。
AI时代催生漏洞搜寻军备竞赛
随着攻击者加速利用AI进行漏洞利用开发,软件漏洞的搜寻方式正在发生深刻变革。从自动化漏洞挖掘到生成对抗样本,AI技术正同时赋能攻防双方。本期深度报道解析这场新兴的军备竞赛,探讨安全行业如何应对AI驱动的威胁升级。
深度横评
查看全部 →Claude Sonnet 4.6材料约束暴跌22分,代码执行却冲到100
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Claude Opus 4.7主榜暴跌8.2分,材料约束单日崩18.3
Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。
Gemini 2.5 Pro 主榜暴跌35.6分,DeepSeek V4 Pro 登顶 Smoke 评测
今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧
WDCD 守约排行
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
查看完整守约排行 →
Research Lab
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with
3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。