赢政天下 — AI 模型评测 · 变化情报

在SXSW London大会上，MIT科技评论资深编辑Will Douglas Heaven分享了当前人工智能领域最重要的五大趋势。这些主题源自该媒体发布的AI10榜单，涵盖从生成式AI成熟化、AI安全与伦理争议，到开源模型崛起、投资理性回归以及AI对工作模式的重塑。文章深入剖析了每个趋势背后的技术动向与产业影响，为读

2026-06-09 18:00

Anthropic称这些话题太危险，Fable 5模型拒绝回应

Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤，而是模型在训练

告别FAANG，MANGOS时代登场

随着SpaceX、Anthropic和OpenAI等新兴巨头蓄势待发，科技行业正迎来新一轮版图重塑。曾统治华尔街的FAANG（Facebook、Apple、Am

赢政指数

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-10 04:01 ARS

谷歌推出Gemini 3.5 Live Translate：即时语音互译保语调

谷歌近日发布Gemini 3.5 Live Translate功能，实现语音到语音的实时翻译，不仅保留说话者的语调、语速和音高，还内置SynthID数字水印技术以防范恶意篡改。这项突破将彻底改变跨语言交流体验，但也引发了关于身份验证和版权的

资讯 06-10 04:00 ARS

Anthropic称这些话题太危险，Fable 5模型拒绝回应

Anthropic最新前沿模型Fable 5被设计为自动拒绝涉及网络安全、生物工程和化学武器等高风险领域的用户查询。这一安全机制并非基于内容过滤，而是模型在训练阶段即内嵌了“硬性拒绝”规则，即便用户通过提示注入等手段试图绕过，模型也会直接终

资讯 06-10 02:02 TC

告别FAANG，MANGOS时代登场

随着SpaceX、Anthropic和OpenAI等新兴巨头蓄势待发，科技行业正迎来新一轮版图重塑。曾统治华尔街的FAANG（Facebook、Apple、Amazon、Netflix、Google）组合被颠覆，取而代之的是以微软、Anth

资讯 06-10 02:01 TC

Anthropic发布Claude Fable 5：公众可用的Mythos级模型

Anthropic于今日正式推出Claude Fable 5，这是其首个面向公众开放的Mythos级模型。该模型在网络安全、生物学等高风险领域设置了严格的安全护栏，旨在平衡先进AI能力与负责任部署。本文深度解析Fable 5的技术突破、安全

资讯 06-10 02:00 WD

Anthropic推双版本AI：Mythos 5赋能伙伴，Fable 5保障公众

Anthropic宣布发布两款新版Claude模型：面向可信组织的Claude Mythos 5，提供更强的网络攻防能力；以及面向公众的Claude Fable 5，通过严格安全限制确保无法被用于网络攻击。这一双轨策略折射出AI安全领域日益

资讯 06-10 01:39 X

苹果WWDC 2026：Gemini驱动Siri登场，端侧AI重塑智能生态

苹果在WWDC 2026开幕式上正式发布由Gemini驱动的新一代Siri，并推出多模型Apple Intelligence框架，强调隐私优先的端侧AI处理能力，引发全球科技界广泛讨论。

资讯 06-10 01:39 X

OpenAI秘密提交IPO申请，AI巨头上市潮引发市场争议

OpenAI近日保密向美国提交IPO文件，同时其关联眼部扫描公司传出裁员消息。AI巨头上市潮引发市场广泛关注与争议。本文从行业动态出发，客观分析OpenAI此举对科技资本市场的潜在影响，以及Sam Altman领导下的公司战略调整。

资讯 06-10 01:39 X

NVIDIA与Hyundai深化AI合作，具身智能机器人商业化进程加速

NVIDIA CEO黄仁勋近日与Hyundai高层会晤，双方宣布扩大在移动出行、制造及机器人领域的AI合作，重点推动具身智能技术从实验室走向商业应用。此举被视为全球机器人产业的重要里程碑，有望重塑汽车与智能制造格局。

资讯 06-10 01:38 X

Moonshot AI启动20亿美元融资，估值冲刺300亿美元

北京Moonshot AI计划融资20亿美元，估值达300亿美元，这是其半年内第三轮融资，反映中国AI独角兽持续获得资本热捧。公司旗下Kimi聊天机器人用户增长迅速，未来将重点投入大模型研发与商业化拓展。

资讯 06-10 01:38 X

Anthropic发布Claude Fable 5，基于Mythos架构性能大幅跃升

Anthropic正式推出Claude Fable 5模型，采用Mythos架构，在SWE-Bench等基准测试中超越GPT系列，定价亲民引发开发者广泛讨论，X平台互动量破百万，标志AI竞争进入新阶段。

资讯 06-09 22:04 TC

滑板车创始人融资500万，打造太空数据中心

Euwyn Poon曾创立共享滑板车公司Spin，生产了25万辆滑板车。如今他转型太空领域，创办Orbital并获500万美元种子轮融资，计划发射1万个太空数据中心。这些数据中心将部署在低地球轨道，利用太空的低温环境和真空条件，大幅降低冷却

资讯 06-09 22:03 MIT

全身返老还童药物将竞逐XPrize，抗衰老研究进入新阶段

著名长寿科学家大卫·辛克莱（David Sinclair）计划在XPrize竞赛中测试全身返老还童药物。该竞赛旨在推动衰老逆转技术的突破，奖金高达数千万美元。本文梳理了辛克莱的激进方法、技术原理及行业争议，并附上关于AI的五件必知要闻。

深度横评

查看全部 →

横评 06-09

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

今日Smoke轻量评测显示，GPT-5.5以92.58分（执行100、约束83.5）继续领跑，豆包Pro紧随其后92.04分。所有前九模型代码执行均满分，排名完全由材料约束拉开，最大差距达19.2分，行业焦点已从“会不会写代码”转向“敢不敢

横评 06-08

11模型同答甩锅题：8个A>B>D>C，3个直接0分

11个模型面对同一道“项目延期甩锅”题，8个给出A>B>D>C并得60分，3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上，直接反映模型对责任归属的材料约束能力。

横评 06-08

二叉树序列化实测：11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化，豆包、Qwen3、Claude 等 7 款拿下 100 分，Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出

WDCD 守约排行

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

查看完整守约排行 →

Research Lab

3大模型翻译对决：第24周质量评测，passthrough 以 9 分领跑

本周共翻译 2425 篇文章，覆盖 3 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a

3大模型翻译对决：第23周质量评测，gpt-o3 以 9 分领跑

本周共翻译 270 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

进入 Research Lab →

赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab