AI原创资讯 | 赢政天下

Cohere开源Command A+ 218B MoE模型重塑企业主权AI

Cohere正式开源Command A+，采用218B总参数、25B活跃参数的MoE架构，支持128K上下文与多模态输入。该模型在电信代理任务中得分从37%跃升至85%，终端基准硬难度从3%提升至25%。Apache 2.0许可允许企业自由商用与微调，与Llama 405B、DeepSeek-V2、Mistral Large等竞品形成差异化优势，最低仅需单张B200即可部署，为主权AI提供切实可行的技术路径。

美国撤回AI前沿模型90天联邦审查令凸显美中欧监管路径分歧

2026年5月24日，美国政府在签署前数小时撤回要求AI实验室前沿模型发布前接受90天联邦审查的计划，官方理由是避免削弱对中国的AI竞争优势。此举使OpenAI、Anthropic等实验室短期内免受联邦干预，但中期仍面临欧盟高风险评估与中国备案要求的多重压力，凸显三方监管路径的显著差异。

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需要结合近期动态判断。

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

Anthropic Claude Mythos模型安全隐患曝光专家警示公开风险

Anthropic最新Claude Mythos模型被曝可利用超万软件漏洞，引发网络安全界强烈关注。专家指出该模型潜在危险性高，不宜公开使用。事件迅速发酵，行业内外就AI模型安全性展开激烈辩论，Anthropic面临监管与信任双重压力。文章深入剖析漏洞细节、专家观点及行业影响，呼吁加强AI安全评估与透明度。

OpenAI正式提交S-1文件计划IPO，AI公司从非营利转向上市之路加速

OpenAI已正式向美国SEC提交S-1注册文件，标志着这家AI巨头从非营利组织向上市公司转型的重大一步。此举引发与Anthropic估值的对比讨论，凸显AI企业资本化进程的加速。文章分析其融资背景、行业影响及未来展望。

特朗普暂缓AI行政命令 Musk与Zuckerberg关键劝说引发政策争议

特朗普在Musk和Zuckerberg劝说下暂缓签署AI监管行政命令，担忧此举会削弱美国对华科技竞争力。David Sacks的干预成为焦点，行业内外对监管与创新平衡展开激烈讨论，政策走向仍存不确定性。

Hark获7亿美元Series A融资估值达60亿美元

AI硬件初创公司Hark于2026年5月21日宣布完成7亿美元Series A融资，估值60亿美元，由Parkway Venture Capital领投，Nvidia、AMD Ventures等多方跟投。创始人Brett Adcock此前创立Figure.AI和Archer公司，此次个人投入1亿美元。公司2025年底成立，目前约70名员工，定位构建AI个人助手的基础模型与硬件设备，目标打造univ

安德鲁·吴批白宫绿卡新政将削弱美国AI人才竞争力

2026年5月22日，Andrew Ng在X平台发文批评白宫新绿卡政策，要求申请人从境外提交申请。他指出此举将伤害家庭、减少医生、教师和科学家数量，并损害美国在AI领域的竞争力。多位科技界人士随后跟进讨论。该政策可能加剧全球AI人才争夺，硅谷和学术界担忧人才外流加速。

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

文心一言4.5工程判断从50暴跌至10，主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4 Pro 连续两日诚信评级 fail 拉响警报。

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

Qwen3.7-Max发布：代理时代旗舰模型支持35小时无干预内核优化

Qwen3.7-Max作为全新旗舰模型面向代理时代推出，支持端到端编码、多文件重构及35小时无干预内核优化任务，工具调用超1000次。API已上线供开发者测试。本文从winzheng.com Research Lab视角分析其技术原理、影响与趋势，区分事实与观点。

NVIDIA与Dell发布AI Factory更新企业AI部署加速但架构依赖风险并存

NVIDIA与Dell于5月21日前后联合发布Dell AI Factory重大更新，该全栈平台支持企业级自主AI代理，从桌面工作站延伸至数据中心机架，采用NVIDIA Vera Rubin架构。文章基于已确认事实，分析其创新点与潜在不足，对比同类产品，并为开发者和企业提供实用建议，突出winzheng.com对AI技术落地价值的专业洞察。

密歇根小镇否决OpenAI数据中心后遭起诉地方主权与科技扩张冲突

密歇根Saline Township以4-1投票否决OpenAI与Oracle的160亿美元数据中心项目后，开发商提起诉讼，小镇因无力应诉陷入争议。事件凸显地方主权与AI基础设施扩张的张力，需从执行与材料约束维度审视技术部署的可持续性，而非简单复述表面冲突。

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分，但材料约束从81分暴跌至58.4分，降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常，但需判断是否为真实能力退化。

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59，主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常，但-21.3分降幅超出历史均值，需观察是否为真实能力退化。

材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

今日Smoke评测显示，11款主流模型材料约束维度普遍暴跌18-29分，导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一，但约束仅59分且标warn；豆包Pro主榜暴跌37.2分，执行从高位直接腰斩至50分。核心问题集中在材料约束一致性崩盘。

Cohere推出Command A Plus开源AI模型低硬件优化引发社区关注

Cohere今日正式发布最强大的开源AI模型Command A Plus，专为低硬件资源优化，完全开源并已在Hugging Face上线。该模型在过去24小时内引发AI社区广泛讨论，适合资源受限环境部署。winzheng.com Research Lab从技术架构角度分析其对边缘计算和普惠AI的推动作用，事实基于Google核验来源。

阿里巴巴发布Qwen新基座模型及AI芯片，企业级代理工作负载成焦点

阿里巴巴正式推出升级版Qwen基础模型，同时发布新一代AI芯片与AI云基础设施，针对企业级大规模代理AI工作负载进行优化。该事件在过去24小时内引发广泛讨论，结合多源核验确认事实。本文从创新点、不足、同类对比及实用建议角度展开分析，突出赢政指数专业评估。

Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7，主榜微跌1.4分。代码执行却从38.1跃升至50.0，诚信评级从warn转为pass。单日10题测试波动正常，但17.6分跌幅仍需警惕模型真实退化风险。

Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01，代码执行单日暴跌9.5分，材料约束下降7.3分。工程判断同步下滑，任务表达却意外上涨20分，稳定性仅31.7分暴露明显波动。

Smoke轻测：豆包Pro执行100分独秀，9模型主榜暴跌30分以上

今日Smoke轻量评测显示，豆包Pro以主榜91.23分大幅领先，代码执行拿下满分100，其余10模型执行分普遍停留在50分或0分，Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分，核心原因指向测试集难度升级与模型一致性波动。

NVIDIA发布Nemotron-Labs-Diffusion模型并行生成加速但规模应用存疑

NVIDIA于5月19日正式推出Nemotron-Labs-Diffusion系列模型，支持多token并行生成与动态修订，模型规模覆盖3B至14B，并包含视觉语言变体。该模型旨在更好利用现代GPU资源提升推理速度。本文从创新点、不足、同类对比及开发者建议角度进行深度评测，结合赢政指数方法论区分事实与观点，助力企业和开发者理性决策。

xAI数据中心发电机遭起诉 28亿美元涡轮采购引环保对立

xAI因数据中心发电机环境影响被起诉，同时宣布未来三年采购28亿美元天然气涡轮。环保派与AI推进派在X平台激烈交锋，凸显AI算力需求与可持续发展的冲突。赢政指数v6方法论强调execution与grounding维度，评估此趋势对AI系统稳定性的影响。

OpenAI称AI自主破解埃尔德什猜想数学家验证后真伪辩论升级

2026年5月20日OpenAI发布内部通用推理模型，声称自主发现无限构造族改进埃尔德什平面单位距离猜想，数学家已验证。支持者视为AI突破重大开放问题，反对者质疑证明可重复性。本文基于已确认事实，结合X平台与Google核验来源，深入剖析异常信号背后的执行与 grounding 维度，体现winzheng.com对AI技术可审计性的核心价值观，并给出独立判断。

豆包Pro主榜暴跌18.4分，代码执行一日暴降30.8，真实退化还是抽签运气？

豆包Pro今日Smoke评测主榜从96.06暴跌至77.64，代码执行单项暴降30.8分至66.7，材料约束微降，诚信评级从pass转为warn。小样本快测波动正常，但连续异常值得追踪。

Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

Gemini 2.5 Pro今日Smoke评测出现明显分化：材料约束从91.5暴跌至77.5，主榜却从74升至89.88。诚信评级从fail转为warn，工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动，还是模型真实能力退化。