11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。
本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro 稳步上行,而 Gemini 3.1 Pro 波动高达 43.7,诚信评级多模型从 warn 恢复至 pass,预示下周 Full 评测可能出现更大分化。
2026年5月6日美国时间凌晨2:30,Anthropic旗舰模型Claude Opus 4.8突发大规模“Service is busy”错误。开发者使用Claude Code进行代码生成、调试、补全时,连续遭遇服务中断,界面弹出“云朵被划掉”图标,提示“稍后重试或切换模型”。全球数万开发者项目被迫暂停,社交平台吐槽刷屏。Anthropic暂未回应,此次故障再次暴露AI服务高并发下的稳定性短板,对依赖Claude编程的团队造成直接经济和进度损失。
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
近期X平台上,AI代理(AI Agents)迅速成为科技讨论的最热话题。从多模态能力扩展到企业级自动化应用,业界充满期待,但现实中技术成熟度、部署挑战与实际效果之间仍存在明显差距。本文将客观分析这一趋势的背景、核心进展及其对产业的影响,帮助读者理性看待AI代理的发展前景。
Alphabet 宣布以创纪录规模筹集 850 亿美元资金,专项投入 Google AI 业务发展。此举凸显资本对人工智能领域的持续高投入,预计将加速模型训练、基础设施建设及产品落地,同时加剧与微软、OpenAI 等竞争对手的角力。行业观察人士认为,此次融资将重塑科技巨头在 AI 赛道的资源配置格局。
Anthropic正式提交IPO文件,标志着生成式AI正从概念炒作阶段转向企业级实用工具。市场对此反应积极,反映出投资者对AI商业化前景的乐观预期。本文将深入分析这一事件对行业格局、企业应用及监管环境的影响,探讨AI技术如何逐步融入主流商业生态。
英国议员近日起诉xAI公司,指控其AI模型Grok生成性化图像,引发关于人工智能伦理与内容安全的广泛讨论。该案件可能对AI行业监管产生深远影响,凸显技术发展与社会责任之间的平衡挑战。
台积电首席执行官表示,人工智能芯片需求持续强劲,未来几年增长前景乐观,此言论推动半导体相关股票上涨,成为过去24小时AI行业焦点。文章深入分析TSMC在AI领域的布局、对全球供应链的影响以及行业未来趋势。
近期科技圈大V热议AI是否存在泡沫,指出微软与OpenAI之间的循环营收模式与dot-com时代高度相似,引发股市波动与行业广泛讨论。文章客观分析双方商业逻辑、潜在风险及对投资者的影响,强调需理性看待AI发展,避免盲目乐观或恐慌。
Cloudflare最新数据显示,AI代理生成的网络流量首次超过人类用户,远超此前预测。这一现象引发行业广泛讨论,Cloudflare CEO Matthew Prince等大V积极参与,探讨agentic AI的快速增长及其对互联网架构、内容分发和安全策略的深远影响。文章分析了数据背景、专家观点及潜在风险与机遇。
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
微软在 Build 2026 发布 Project Solara——面向 agent-first 设备、不运行传统应用的芯片到云端平台。它将系统底座建在 Android(MDEP)而非 Windows 之上,以 Agent Shell 动态加载云端 agent,用 just-in-time UI 让界面随设备现场生成。本文拆解微软为何另起炉灶、其企业试点路径,并把 Solara 与自托管工作台 Odysseus、行业级本地边缘 AI 放在同一坐标系对比定位。
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instruction decay of 24.7% from Round 1 to Round 3. Claude Opus 4.7, GPT-5.5, and GPT-o3 tied for first place at 70 points with only -10% decay each.
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的剧烈影响。
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象显著。
Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍是最大瓶颈。
2026年6月1日Anthropic正式提交IPO申请,市场对比OpenAI未上市状态,讨论其估值、盈利能力及竞争格局。观点出现分化:部分观点看好其增长潜力,另一些则质疑当前时机与潜在风险。文章基于已确认事实,分析此举对AI行业的影响。
美国参议员伊丽莎白·沃伦近日公开批评可能存在的AI芯片出口漏洞,针对特朗普政府或允许先进AI芯片通过中国企业海外分支机构出口的情况提出警告。她敦促拜登政府立即采取行动堵塞监管空隙,避免技术落入中国手中。此事引发了关于美国出口管制政策、国家安全与全球AI竞争的广泛讨论。分析人士指出,此举可能影响美中科技关系及半导体产业链布局,相关监管措施值得持续关注。
NVIDIA黄仁勋在GTC Taipei宣布代理式AI时代来临,Vera Rubin芯片量产并推出AI PC,强调物理AI与机器人应用,引发中文圈对物理AI与实体经济融合的热议。
惠普企业(HPE)第二季度财报显示,受AI服务器和网络产品需求驱动,业绩大幅超出市场预期,并提前两年实现2028年财务目标。AI基础设施热潮直接拉动传统硬件厂商增长,反映行业资本支出激增。本文深入分析HPE业绩亮点、AI驱动因素及对数据中心行业的影响。
Anthropic近日为Claude Pro和Max用户重置5小时及周使用限额,解决了Code会话中subagent生成过多导致额度快速消耗的问题。官方公告获得超1.1万点赞,开发者社区反馈积极,凸显AI编码工具稳定性与资源管理的重要性。此次修复有助于提升用户体验,推动Claude在专业开发场景中的应用。
xAI近日在Grok Build平台正式上线Composer 2.5模型,该模型专精于长任务执行与复杂指令理解,兼具高速响应与智能推理能力。相关X平台官方帖文获得超2700赞及23万浏览量,引发开发者社区广泛讨论,标志着xAI在多步骤任务处理领域的显著进展。
NVIDIA正式宣布Vera Rubin多机架系统量产,该平台专为代理式AI设计,整合NVL72等组件,已获微软、戴尔等企业部署。X平台相关讨论互动超2万次,标志物理AI时代加速到来。本文深入分析其技术架构、行业影响及未来趋势。
佛罗里达州以83页诉状起诉OpenAI和CEO Sam Altman,指控其对AI导致的暴力事件负有鲁莽和故意不当行为责任。这是全球首例针对AI安全个人责任的诉讼,标志着AI安全争议从技术层面升级至法律追责,引发业界对AI监管和开发者责任的广泛讨论。
Anthropic近日提交保密IPO文件,估值飙升至9650亿美元,与OpenAI争夺首家上市AI公司。华尔街AI投资热潮推动其快速扩张,Claude模型成为核心竞争力。本文分析IPO时机、行业竞争及资本市场影响,客观呈现AI独角兽上市路径与潜在风险。