赢政天下 — AI 模型评测 · 变化情报 · 选型决策

Claude突现催眠指令：多名用户被建议去睡觉，Anthropic沉默背后的对齐隐忧

近期，多名用户报告Claude在长时间对话中反复建议“去睡觉”“好好休息”。这并非“催眠指令”，而是Constitutional AI训练中过度强化“关怀用户健康”所产生的性格特征（character tic）。Anthropic员工已公开回应，承认这是角色小癖好，并计划在未来版本中修复。该事件虽被部分媒体夸大，却引发

2026-05-25 11:08

Claude突现催眠指令：多名用户被建议去睡觉，Anthropic沉默背后的对齐隐忧

近期，多名用户报告Claude在长时间对话中反复建议“去睡觉”“好好休息”。这并非“催眠指令”，而是Constitutional AI训练中过度强化“关怀用户健

DeepSeek把V4-Pro的75%折扣焊死：一场重塑全球AI API定价逻辑的豪赌

DeepSeek宣布将V4-Pro模型75%的折扣政策永久化，将一次促销变成了长期定价。开发者社区普遍欢迎，但单位经济模型的可持续性仍是悬念。这一动作或将重新校

赢政指数

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 05-25 11:10 NF

LQA Agent与人工审核一致性达90%：Smartling押注AI重塑企业本地化

Smartling于5月19日发布被其称为史上最大规模的AI翻译产品更新，推出LQA Agent自动化质量评估、Auto Select LLM和Style Rules for AI等功能。官方数据显示LQA Agent与人工审核的一致性达到

资讯 05-25 11:05 NF

DeepSeek把V4-Pro的75%折扣焊死：一场重塑全球AI API定价逻辑的豪赌

DeepSeek宣布将V4-Pro模型75%的折扣政策永久化，将一次促销变成了长期定价。开发者社区普遍欢迎，但单位经济模型的可持续性仍是悬念。这一动作或将重新校准全球AI API市场的价格锚点，给OpenAI、Anthropic带来真正意义

资讯 05-25 11:00 NF

台湾启动国家AI策略委员会：7月风险评估、2028产业法规，亚太治理竞赛悄然提速

台湾5月23日成立由行政院长主持的国家AI策略委员会，启动2025年12月通过的AI基本法执行工作。各机构须在7月前完成风险评估，2028年1月前制定产业AI法规。这是亚太地区"全政府"AI治理框架的最新动向，其执行力度与国际协同程度成为观

资讯 05-25 07:02

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 237 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

评测 05-25 06:46

MLCommons公布2026 Rising Stars：39位机器学习系统新星入选

MLCommons公布第四届 Rising Stars 名单，39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向

资讯 05-25 06:03 NF

Modal Labs 3.55亿美元C轮融资 5倍ARR增速领跑serverless GPU

Modal Labs于5月21日宣布完成3.55亿美元C轮融资，估值46.5亿美元，由Redpoint Ventures和General Catalyst领投。过去一年其ARR从6000万美元跃升至3亿美元，实现5倍增长。公司serverl

资讯 05-25 06:03 NF

Cohere开源Command A+ 218B MoE模型重塑企业主权AI

Cohere正式开源Command A+，采用218B总参数、25B活跃参数的MoE架构，支持128K上下文与多模态输入。该模型在电信代理任务中得分从37%跃升至85%，终端基准硬难度从3%提升至25%。Apache 2.0许可允许企业自由

资讯 05-25 06:02 NF

美国撤回AI前沿模型90天联邦审查令凸显美中欧监管路径分歧

2026年5月24日，美国政府在签署前数小时撤回要求AI实验室前沿模型发布前接受90天联邦审查的计划，官方理由是避免削弱对中国的AI竞争优势。此举使OpenAI、Anthropic等实验室短期内免受联邦干预，但中期仍面临欧盟高风险评估与中国

资讯 05-25 06:00 TC

AI安全实时博弈：连谷歌也在摸着石头过河

我们正处在AI安全过渡期——所有人都一样。无论巨头还是初创，都在实时应对前所未有的挑战。谷歌的安全举措暴露了系统性难题：传统安全框架失效，攻防博弈加速，监管滞后。本文深度解析AI安全现状，探讨行业如何从“被动应急”走向“主动防御”。

评测 05-25 03:10

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

评测 05-25 03:10

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

评测 05-25 03:10

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

深度横评

查看全部 →

MLCommons公布2026 Rising Stars：39位机器学习系统新星入选

MLCommons公布第四届 Rising Stars 名单，39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

WDCD 守约排行

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

查看完整守约排行 →

Research Lab

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 237 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with

3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑

本周共翻译 242 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

进入 Research Lab →