赢政天下 — AI 模型评测 · 变化情报 · 选型决策

埃德蒙顿警方全球首试AI面部识别执法记录仪安全需求与公民自由引发对立

2025年12月，埃德蒙顿警方启动全球首个Axon AI面部识别执法记录仪概念验证测试，50名警员在静默模式下运行系统，仅事后由专员复核结果。该技术针对数据库中持严重罪行通缉令或安全标记人员，引发监控技术、以色列安保实践影响及隐私权的激烈争论。支持者强调提升警员情境感知，反对者担忧公民自由侵蚀。事件在X平台过去24小时

2026-05-26 06:08

我花一周录家务赚钱，谁才是机器人？

作者接受了一项实验：将一周的家务活动全程录制，作为训练未来人形机器人的数据，每项任务获得报酬。从烹饪到洗衣，从整理到清洁，这些日常劳动被拆解成标注数据。然而，当

AI会毁掉你的职业生涯吗？精准预测你的职业命运

随着AI技术渗透各行各业，你的工作是否安全？本文基于《WIRED》一篇互动测验文章，深度剖析AI对不同职业的冲击：从高频重复岗位到创意决策型职业，哪些将被颠覆，

赢政指数

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 05-26 20:03 WD

AI全面接管“最招人恨”的工作：催收

随着人工智能技术渗透到金融服务业，最令人厌烦的电话——债务催收——正被AI大规模自动化。很快，那些拖欠账单的人可能会接到由AI驱动的催收电话。这究竟是效率的提升，还是对欠债者心理的又一次碾压？本文编译自WIRED，探讨这一趋势背后的技术与伦

资讯 05-26 20:02 WD

我花一周录家务赚钱，谁才是机器人？

作者接受了一项实验：将一周的家务活动全程录制，作为训练未来人形机器人的数据，每项任务获得报酬。从烹饪到洗衣，从整理到清洁，这些日常劳动被拆解成标注数据。然而，当人类为了微薄报酬像机器一样重复记录时，究竟谁才是真正的“机器人”？本文深入探讨数

资讯 05-26 20:01 WD

AI会毁掉你的职业生涯吗？精准预测你的职业命运

随着AI技术渗透各行各业，你的工作是否安全？本文基于《WIRED》一篇互动测验文章，深度剖析AI对不同职业的冲击：从高频重复岗位到创意决策型职业，哪些将被颠覆，哪些将坚如磐石。结合最新行业报告与专家观点，为你的职业规划提供参考。

资讯 05-26 20:00 WD

AI代理引爆科技界：混乱始末

2026年，Claude Code与OpenClaw两款AI代理横空出世，以近乎自主的方式重新定义软件开发与系统管理。它们从辅助工具蜕变为决策者，引发行业震荡：传统岗位被重塑、代码库暴增、安全风险升级。WIRED深度揭秘这场变革的导火索与连

资讯 05-26 18:02 MIT

入门级工作危机逼近，亟待解决

尽管AI尚未引发大规模失业，发达国家整体就业保持稳定，但表面之下隐藏着一个令人不安的趋势：入门级工作——职业阶梯的第一级——正被悄然削弱。本文深入分析这一潜在危机，探讨AI如何改变劳动力市场结构，以及政策制定者与企业应采取哪些措施来避免“职

资讯 05-26 18:01 MIT

AI失业恐慌：一场现实检验

摘要：白领岗位正被AI批量取代？科技行业裁员潮（Coinbase、Meta、思科）似乎预示着知识工作者的末日。但《麻省理工科技评论》作者戴维·罗特曼提醒：在辞职前请三思——历史表明，技术驱动的就业恐慌往往夸大其词。AI或许会重塑工作，但“大

资讯 05-26 18:00 WD

美执法部门警告“反科技极端主义”升温

随着美国民众对AI取代工作、数据中心扰民的焦虑日益加剧，联邦执法人员正将一种新型威胁列入重点监控清单。据WIRED获得的内部文件显示，国土安全部与联邦调查局已联合发布预警，将针对科技企业及AI基础设施的破坏行为定义为“反科技极端主义”，并指

资讯 05-26 06:11 NF

教皇利奥发布AI通谕呼吁解除武装大科技权力集中引发反弹

2026年5月，教皇利奥发布首份以人类保障为主题的通谕《Magnifica Humanitas》，明确要求AI"解除武装"，禁止战争应用，并批评数据与算力集中在少数科技企业手中。通谕同时为教会迟迟未谴责奴隶制道歉，并指出数字经济可能制造新形

资讯 05-26 04:00 TC

ClickUp大规模裁员：AI Agent正在取代白领工作

成立九年的项目管理初创公司ClickUp宣布用数千个AI Agent替换数百名员工，引发行业震动。这一决策不仅揭示了AI在职场中的渗透速度远超预期，更预示着未来工作模式的根本性变革。本文编译自TechCrunch深度报道，探讨这场裁员背后的

评测 05-26 03:10

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

评测 05-26 03:10

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

评测 05-26 03:10

Gemini 2.5 Pro 主榜暴跌35.6分，DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中，Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03，执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶，执行 100 分、约束 89.5 分（warn）领先，GPT-o3 紧

深度横评

查看全部 →

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

Gemini 2.5 Pro 主榜暴跌35.6分，DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中，Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03，执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶，执行 100 分、约束 89.5 分（warn）领先，GPT-o3 紧

WDCD 守约排行

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

查看完整守约排行 →

Research Lab

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 237 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with

3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑

本周共翻译 242 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

进入 Research Lab →