AI原创资讯 | 赢政天下

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o3和豆包Pro位居后两名。

文心一言4.5主榜暴跌10.4分，任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分，代码执行从66.70分降至50.00分，任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分，诚信评级从warn转为pass。

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示，Qwen3 Max材料约束暴跌28.9分至71.1，主榜仅73.25分；Claude Opus 4.7以执行与约束双100稳居第一，Gemini 2.5 Pro与GPT-5.5主榜同为98.83分，但执行-约束搭配各异。

Claude Code架构分析走红：98%传统工程筑牢AI安全“堡垒”

近日，一篇关于Claude Code架构的深度分析在X平台引发热议。研究显示，该系统98%代码为传统软件工程，仅1.6%直接调用AI模型，依靠权限系统、上下文压缩和子代理隔离等机制有效抑制幻觉。开发者开始重新审视AI agent的可靠性设计，Anthropic的工程实践成为行业新参考。

OpenAI遭遇多州检察长调查隐私安全问题或影响IPO进程

纽约等州检察长近日对OpenAI发起传票调查，重点关注用户数据隐私、未成年人保护、广告模式及模型谄媚倾向等问题。此举正值OpenAI筹备IPO关键期，监管压力显著上升。调查凸显AI企业在数据安全与伦理合规方面的挑战，可能对公司估值与上市计划产生深远影响。业界普遍关注调查结果将如何塑造未来AI监管框架。

Grok 实时屏幕分享功能升级：AI 助手从被动响应走向主动协作

xAI 近日为 Grok iOS 与 Android 应用推出实时屏幕分享功能，支持用户在调试代码、App 操作指导和文档分析等场景下获得即时协助。这一升级将 Grok 从传统被动问答模式转变为主动任务参与，引发 X 平台广泛讨论，标志着生成式 AI 向实用助手角色迈出重要一步。

Anthropic因国家安全禁令暂停Fable 5与Mythos 5模型，AI开源浪潮与地缘争议并起

美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问，引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务，导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡，行业热度持续攀升。本文深入分析事件起因、影响及未来走向。

SpaceX全股票收购Cursor AI，携手打造最强AI编码模型

SpaceX通过全股票交易收购Cursor AI，目标构建最有用AI模型。双方过去数月已联合训练模型，即将在Cursor与Grok Build平台发布。Elon Musk表示AI编码能力将达Stockfish级别，引发行业对AI编程竞赛的广泛讨论。此次收购凸显科技巨头在AI编码领域的激烈布局。

纽约州检察长调查OpenAI数据实践 IPO面临监管加压

纽约州于2026年6月14日牵头多州检察长向OpenAI发出传票，调查用户数据收集、未成年人保护、广告模式及模型输出倾向等问题。公司正准备大规模IPO，此举直接增加合规成本与时间压力。支持者认为调查可推动行业标准建立，批评者指出时机与IPO进程重叠可能存在其他考量。双方在X平台上围绕具体传票内容展开辩论。

美政府紧急令Anthropic关闭Fable 5与Mythos 5 安全限制与模型开放冲突加剧

2026年6月12日晚5:21，美国商务部向Anthropic下达紧急指令，要求立即停止Claude Fable 5和Mythos 5全球访问。Anthropic称漏洞发现与GPT-5.5相当，且已公开，拒绝将此作为召回理由。事件发生前两天，CEO Dario Amodei刚发文支持政府阻挡不安全模型。此前五角大楼已禁止内部使用Claude。开源社区反应强烈，监管与开放两派争论焦点转向具体执行标准

斯科塞斯出任Black Forest Labs顾问好莱坞AI岗位与真实性争议升级

2026年6月15日，导演Martin Scorsese正式担任Black Forest Labs顾问，此事在好莱坞引发支持与反对两派争论。支持者强调AI可提升视觉效率，反对者担心传统岗位流失与艺术真实性受损。事件直接指向具体人事任命，双方讨论活跃。文章分析此信号背后的产业结构调整与创作工具迭代逻辑，并给出独立判断。

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026-06-16 Smoke评测中，Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二，执行66.7分。9个模型代码执行出现-50分暴跌，主榜普遍下滑，Gemini系列执行分跌至0分。

OpenAI退役GPT-5.2模型，ChatGPT升级至GPT-5.5并强化安全功能

OpenAI正式宣布GPT-5.2系列模型退役，全面切换至GPT-5.5，同时为ChatGPT新增安全路由与心理健康支持功能。此次更新引发用户广泛讨论，聚焦模型迭代速度与AI安全改进，体现OpenAI持续优化用户体验的决心。文章将深入分析技术细节、用户反馈及行业影响。

AI算力债务证券化引争议：CoreWeave债券评级A3背后的泡沫风险

CoreWeave等公司将NVIDIA芯片相关债务包装成A3评级债券进入二级市场，Meta等大额订单提供支撑。此举引发退休基金涉险担忧，AI算力金融化成为新争议焦点。市场对潜在泡沫的讨论升温，需关注风险传导与监管动态。

Claude 4.7重磅更新：60秒一键生成完整PPT，提示工程社区沸腾

Anthropic近日推出Claude 4.7版本，新增一键生成专业PPT演示文稿功能，用户仅需输入提示即可在60秒内获得完整演示文件。该功能融合多模态与代理能力，引发提示工程分享热潮，X平台相关互动量已超百万。业界关注其对传统办公软件的影响，但专家提醒AI生成内容仍需人工审核。

NVIDIA携手韩国巨头加速AI数据中心布局：800V架构与SK AI工厂成焦点

NVIDIA与Naver、SK Telecom等韩国企业深化AI数据中心合作，800V电源架构加速落地，SK AI工厂计划2027年上线。AI算力需求激增下，供应链紧张问题凸显，行业正快速重构基础设施格局。

苹果iOS 27发布：Siri获跨应用记忆能力，Apple Intelligence迈向落地

WWDC后，苹果iOS 27让Siri支持跨应用记忆与智能操作，Apple Intelligence从概念走向实际应用。尽管起步晚于ChatGPT多年，此次升级仍被视为苹果AI战略转折点，引发用户与开发者广泛讨论，凸显本地化AI的独特优势与挑战。

Meta被迫终止20亿美元Manus收购：北京施压下的AI并购困境

Meta因中国政府施压，宣布取消对AI初创公司Manus价值20亿美元的收购计划。Manus创始人将回购公司并组建中美合资实体。此事件凸显中美AI技术脱钩加剧，Meta首席执行官扎克伯格公开承认AI团队重组出现失误。行业内对未来跨境投资前景展开激烈讨论，反映出地缘政治对科技并购的深远影响。

OpenAI遭遇多州刑事调查与安全诉讼，AI责任边界引争议

OpenAI正面临佛罗里达等多州总检察长刑事调查，以及多起涉及自杀与枪击事件的wrongful death诉讼。19起类似案件指控其AI产品安全护栏失效，引发公众对AI开发者法律责任的激烈辩论。文章客观分析事件背景、法律挑战及行业影响。

美国政府突施出口管制 Anthropic Fable 5与Mythos 5模型遭封禁

美国政府以国家安全与网络能力为由，要求Anthropic暂停Fable 5和Mythos 5对外国用户访问，疑涉中国访问。模型刚发布即下架，引发AI地缘政治与监管风暴，X平台互动破百万，讨论AI是否已成武器化技术。

2950亿美元砸向AI数据中心：中国为何此刻向NVIDIA说不？

中国政府与企业联合推出2950亿美元AI数据中心建设计划，目标直指减少对NVIDIA依赖、加速本土大模型训练。这一规模空前的算力基建投资，正在重塑全球AI供应链格局，也将地缘科技竞争推向新的拐点。

Research Lab

5大模型翻译对决：第25周质量评测，passthrough 以 9 分领跑

本周共翻译 443 篇文章，覆盖 5 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

谷歌开源DiffusionGemma 260亿参数模型本地生成速度提升4倍

谷歌DeepMind于2026年6月11日发布DiffusionGemma模型，总参数260亿，采用混合专家架构，推理仅激活约38亿参数。在NVIDIA H100上文本生成速度超过1000 token/秒，较传统自回归模型快约4倍。该模型支持多模态输入和文本输出，适合本地低延迟场景，但文本质量仍需独立验证。

OpenRouter Fusion API发布多模型融合成本减半引行业分歧

2026年6月13日OpenRouter发布Fusion API，支持多模型并行融合运行，宣称在多项任务中达到Fable级别智能且成本减半。该产品引发行业两极评价，乐观者认为性能与性价比提升，批评者质疑合成机制可靠性及其对单一模型生态的影响。文章分析其技术特点、与现有方案对比，并为开发者和企业提供落地建议。

美国政府令Anthropic停供Fable 5及Mythos 5模型地缘分裂风险加剧

2026年6月13日美国政府以国家安全为由要求Anthropic停止向外国用户提供Fable 5和Mythos 5模型。此举直接切断前沿模型的跨境访问，引发AI社区对技术保护与地缘分裂的激烈争论。支持者认为可守住核心技术，反对者指出政策将加速开源路线发展，并改变全球AI部署格局。事件已对主权计算讨论产生实质影响。

豆包Pro材料约束暴跌24分，代码执行却从38.4飙至100

今日Smoke评测中，豆包Pro材料约束从84.80降至60.80，跌24分；代码执行从38.40升至100.00，主榜从59.28升至82.36。单日10题快测下，两个核心维度出现极端反向波动，需区分题目抽签与真实能力变化。

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Grok 4材料约束从83.00降至61.30，跌21.7分，而代码执行从80.90升至100.00，主榜微升0.7分至82.59。单日10题快测下，此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分