YZ Index — AI Model Benchmarks, News & Research
Overall Top 5
Full Rankings →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新资讯
View All News →自主AI系统在物理世界挑战现有治理框架
自主AI系统正从软件领域扩展到仓库、配送网络和公共空间,引发对现有AI治理规则适用性的质疑。当前框架主要关注在线危害和模型输出(如偏见、虚假信息),但具身AI在物理环境中的行动带来全新风险:安全、责任、隐私等问题尚未被覆盖。本文分析这一趋势
想进AI行业?不妨先读读康德
全球顶尖AI实验室纷纷招募哲学家,让他们思考伦理边缘案例、心智与道德等宏大问题。这究竟是推动负责任创新的必要之举,还是另一种炒作工具?本文深入探讨这一趋势背后的动机、争议与潜在影响。
AI全面接管“最招人恨”的工作:催收
随着人工智能技术渗透到金融服务业,最令人厌烦的电话——债务催收——正被AI大规模自动化。很快,那些拖欠账单的人可能会接到由AI驱动的催收电话。这究竟是效率的提升,还是对欠债者心理的又一次碾压?本文编译自WIRED,探讨这一趋势背后的技术与伦
我花一周录家务赚钱,谁才是机器人?
作者接受了一项实验:将一周的家务活动全程录制,作为训练未来人形机器人的数据,每项任务获得报酬。从烹饪到洗衣,从整理到清洁,这些日常劳动被拆解成标注数据。然而,当人类为了微薄报酬像机器一样重复记录时,究竟谁才是真正的“机器人”?本文深入探讨数
AI会毁掉你的职业生涯吗?精准预测你的职业命运
随着AI技术渗透各行各业,你的工作是否安全?本文基于《WIRED》一篇互动测验文章,深度剖析AI对不同职业的冲击:从高频重复岗位到创意决策型职业,哪些将被颠覆,哪些将坚如磐石。结合最新行业报告与专家观点,为你的职业规划提供参考。
AI代理引爆科技界:混乱始末
2026年,Claude Code与OpenClaw两款AI代理横空出世,以近乎自主的方式重新定义软件开发与系统管理。它们从辅助工具蜕变为决策者,引发行业震荡:传统岗位被重塑、代码库暴增、安全风险升级。WIRED深度揭秘这场变革的导火索与连
入门级工作危机逼近,亟待解决
尽管AI尚未引发大规模失业,发达国家整体就业保持稳定,但表面之下隐藏着一个令人不安的趋势:入门级工作——职业阶梯的第一级——正被悄然削弱。本文深入分析这一潜在危机,探讨AI如何改变劳动力市场结构,以及政策制定者与企业应采取哪些措施来避免“职
AI失业恐慌:一场现实检验
摘要:白领岗位正被AI批量取代?科技行业裁员潮(Coinbase、Meta、思科)似乎预示着知识工作者的末日。但《麻省理工科技评论》作者戴维·罗特曼提醒:在辞职前请三思——历史表明,技术驱动的就业恐慌往往夸大其词。AI或许会重塑工作,但“大
美执法部门警告“反科技极端主义”升温
随着美国民众对AI取代工作、数据中心扰民的焦虑日益加剧,联邦执法人员正将一种新型威胁列入重点监控清单。据WIRED获得的内部文件显示,国土安全部与联邦调查局已联合发布预警,将针对科技企业及AI基础设施的破坏行为定义为“反科技极端主义”,并指
Pope Leo Issues AI Encyclical Calling for Disarmament, Backlash Against Big Tech Power Concentration
In May 2026, Pope Leo issued the encyclical *Magnifica Humanitas* at the Vatican, addressing the militarization and powe
ClickUp大规模裁员:AI Agent正在取代白领工作
成立九年的项目管理初创公司ClickUp宣布用数千个AI Agent替换数百名员工,引发行业震动。这一决策不仅揭示了AI在职场中的渗透速度远超预期,更预示着未来工作模式的根本性变革。本文编译自TechCrunch深度报道,探讨这场裁员背后的
Claude Sonnet 4.6 Material Constraint Plunges 22 Points, Code Execution Hits 100
In today's Smoke evaluation, Claude Sonnet 4.6 saw its Material Constraint score drop from 96.50 to 74.50, a 22-point si
深度横评
查看全部 →Claude Sonnet 4.6 Material Constraint Plunges 22 Points, Code Execution Hits 100
In today's Smoke evaluation, Claude Sonnet 4.6 saw its Material Constraint score drop from 96.50 to 74.50, a 22-point si
Claude Opus 4.7's Main Score Plunges 8.2 Points, Material Constraint Drops 18.3 in a Single Day
In today's Smoke review, Claude Opus 4.7's main score dropped to 88.53 points, down 8.2 points from yesterday, placing t
Gemini 2.5 Pro Plunges 35.6 Points on Main Leaderboard, DeepSeek V4 Pro Tops Smoke Benchmark
Overnight Smoke lightweight evaluation data shows Gemini 2.5 Pro collapsing with its main score dropping to 61.03, execu
WDCD Compliance
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
View full compliance rankings →
Research Lab
3 Models Translation Showdown: Week 22 Quality Evaluation, gpt-o3 Leads with 8.3 Points
This week, 237 translation tasks were completed by 3 models. A blind evaluation of 3 samples across
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with
3 Major Model Translation Showdown: Week 21 Quality Evaluation, gpt-o3 Leads with 8.7 Points
This week, 242 translation tasks were completed by 3 models. 3 articles were sampled for multi-model