赢政天下 — AI 模型评测 · 变化情报 · 选型决策

试戴Amazon Bee：AI便利与隐私焦虑的诡异结合

Amazon最新推出的AI可穿戴设备Bee，以其独特的设计和功能引发了广泛关注。作者在亲身体验后，感受到了前所未有的便利——随时随地的语音助手、实时翻译、环境感知等，但同时也被一种挥之不去的隐私担忧所困扰。就像蜜蜂在花丛中采蜜，Bee也在不断收集用户的日常数据，这种便利与隐私的微妙平衡，让人既兴奋又不安。本文深度剖析了

2026-05-25 00:00

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 2

赢政指数

#1 Claude Sonnet 4.6 83 ▼0.5 · #2 豆包 Pro 81.3 ▼1.3 · #3 Grok 4 81 ▲31.8 · #4 Claude Opus 4.7 80 ▼1.1 · #5 Gemini 2.5 Pro 79 ▲0.5 · #6 Qwen3 Max 79 ▲1.8 · #7 GPT-o3 78.3 ▲2.6 · #8 Gemini 3.1 Pro 77.7 ▼1.5 · #9 GPT-5.5 77 ▲3.8 · #10 DeepSeek V4 Pro 76.4 ▼1.3 · #11 文心一言 4.5 67.1 ▼11.1 · ▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1 · #1 Claude Sonnet 4.6 83 ▼0.5 · #2 豆包 Pro 81.3 ▼1.3 · #3 Grok 4 81 ▲31.8 · #4 Claude Opus 4.7 80 ▼1.1 · #5 Gemini 2.5 Pro 79 ▲0.5 · #6 Qwen3 Max 79 ▲1.8 · #7 GPT-o3 78.3 ▲2.6 · #8 Gemini 3.1 Pro 77.7 ▼1.5 · #9 GPT-5.5 77 ▲3.8 · #10 DeepSeek V4 Pro 76.4 ▼1.3 · #11 文心一言 4.5 67.1 ▼11.1 · ▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 05-25 06:00 TC

AI安全实时博弈：连谷歌也在摸着石头过河

我们正处在AI安全过渡期——所有人都一样。无论巨头还是初创，都在实时应对前所未有的挑战。谷歌的安全举措暴露了系统性难题：传统安全框架失效，攻防博弈加速，监管滞后。本文深度解析AI安全现状，探讨行业如何从“被动应急”走向“主动防御”。

评测 05-25 03:10

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

评测 05-25 03:10

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

评测 05-25 03:10

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

资讯 05-24 20:00 WD

旧金山田德隆区：机器人接手非营利组织餐食制作

在旧金山最混乱的街区田德隆区，一家非营利组织因志愿者短缺转而采用机器人餐食制备技术。这套系统由创业公司打造，能自动完成切菜、烹饪和分装，每天可产出数千份餐食。尽管机器人无法完全取代人情味，但它们在缓解人力危机、确保食品卫生和效率方面展现了巨

资讯 05-24 14:03 X

Anthropic Claude Mythos模型安全隐患曝光专家警示公开风险

Anthropic最新Claude Mythos模型被曝可利用超万软件漏洞，引发网络安全界强烈关注。专家指出该模型潜在危险性高，不宜公开使用。事件迅速发酵，行业内外就AI模型安全性展开激烈辩论，Anthropic面临监管与信任双重压力。文章

资讯 05-24 14:02 X

OpenAI正式提交S-1文件计划IPO，AI公司从非营利转向上市之路加速

OpenAI已正式向美国SEC提交S-1注册文件，标志着这家AI巨头从非营利组织向上市公司转型的重大一步。此举引发与Anthropic估值的对比讨论，凸显AI企业资本化进程的加速。文章分析其融资背景、行业影响及未来展望。

资讯 05-24 14:02 X

特朗普暂缓AI行政命令 Musk与Zuckerberg关键劝说引发政策争议

特朗普在Musk和Zuckerberg劝说下暂缓签署AI监管行政命令，担忧此举会削弱美国对华科技竞争力。David Sacks的干预成为焦点，行业内外对监管与创新平衡展开激烈讨论，政策走向仍存不确定性。

资讯 05-24 06:08 NF

Hark获7亿美元Series A融资估值达60亿美元

AI硬件初创公司Hark于2026年5月21日宣布完成7亿美元Series A融资，估值60亿美元，由Parkway Venture Capital领投，Nvidia、AMD Ventures等多方跟投。创始人Brett Adcock此前创

资讯 05-24 06:07 NF

安德鲁·吴批白宫绿卡新政将削弱美国AI人才竞争力

2026年5月22日，Andrew Ng在X平台发文批评白宫新绿卡政策，要求申请人从境外提交申请。他指出此举将伤害家庭、减少医生、教师和科学家数量，并损害美国在AI领域的竞争力。多位科技界人士随后跟进讨论。该政策可能加剧全球AI人才争夺，硅

评测 05-24 03:11

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

评测 05-24 03:10

文心一言4.5工程判断从50暴跌至10，主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

深度横评

查看全部 →

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

WDCD 守约排行

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

查看完整守约排行 →

Research Lab

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with

3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑

本周共翻译 242 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%

WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an av

进入 Research Lab →