GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
软银集团宣布计划投资750亿欧元在法国建设欧洲最大规模AI数据中心,以支持全球人工智能基础设施需求。CEO孙正义强调法国在AI领域的雄心,此举正值全球数据中心建设热潮。项目将推动法国成为欧洲AI枢纽,同时引发对能源消耗和地缘技术竞争的关注。文章分析投资背景、战略意义及潜在影响。
阿里巴巴正式推出Qwen 3.7-Max模型,以仅为Claude六分之一的价格提供强大性能,支持长达35小时自主运行和千次工具调用。该产品发布凸显中国AI在成本效益上的显著优势,引发中外模型对比热议,中文社区讨论活跃,预示全球AI竞争进入新阶段。
OpenAI最新模型自主完成了对Erdős提出的几何猜想的证明,生成长达125页的新证明文件,并获得专业数学家的验证。这一成果被视为AI在纯数学领域的重要里程碑,展示了其通用推理能力的显著提升,在社交媒体X上引发广泛讨论。事件凸显了AI从辅助工具向独立研究者角色转变的潜力,同时也引发关于人类数学家未来定位的思考。
NVIDIA近日推出首款专为AI代理设计的RTX Spark芯片,支持在本地PC上运行强大AI模型,无需依赖云端服务。微软、Adobe等巨头合作重构软件生态,黄仁勋强调AI将创造更多工程师岗位。该产品互动量极高,标志着AI计算从云端向边缘设备迁移的重要一步,预计将重塑个人计算与软件开发格局。
OpenAI 近日宣布完成 1100 亿美元大规模融资,估值达到 7300 亿美元。市场传闻公司可能于年底启动 IPO,此举将用于扩展 AI 能力。融资消息在社交媒体和财经媒体广泛传播,引发关于估值泡沫与 AGI 竞赛的讨论。文章分析了此次融资的背景、资金用途及潜在影响,保持客观视角审视行业动态。
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
近期,大量用户借助Grok的图像编辑功能对名人姿势、外观等进行调整,相关帖子迅速走红,单帖获数千点赞和高浏览量。这一现象不仅展示了AI图像生成工具的流行,也反映出消费者级AI应用正迎来热度高峰。文章将深入分析这一趋势的背景、用户行为及行业影响,探讨AI工具如何改变内容创作生态。
Anthropic工程师近日分享Claude高级工作流实践,强调构建自提示系统而非依赖手动prompt。该方法涵盖CLADE.md配置、插件集成及多代理协作,能显著提升效率。社区讨论显示,此范式正成为AI使用新标准,相关视频与指南互动量高,标志着提示工程向自动化代理系统转型。
Sam Altman宣布OpenAI Robotics团队招聘硬件、机器学习工程师,聚焦物理世界机器人应用,从模拟研究转向硬件-ML共设计。短期支持基础设施工人,长期目标实现个人机器人,此举引发行业对Physical AI的热议。
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分,文心一言执行仅50分垫底,整体格局未变。
美国时间2026年5月27日,喜剧演员Ronny Chieng在哈佛毕业典礼上呼吁“你们这代使命是杀死AI”,现场获热烈掌声。该言论迅速引发两极反应:AI支持者认为其极端反智,反对者视作文化转向信号。辩论在两天内成为行业焦点,凸显公众对AI发展的复杂态度。
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instruction decay of 36.5% from Round 1 to Round 3. Qwen3 Max led the field with 70.8 points and the lowest decay rate at 17%.
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强区分度。
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
Groq公司正积极寻求新一轮融资,同时与Nvidia展开合作以扩展其AI推理云服务。此举标志着AI芯片领域竞争进一步加剧,吸引了市场广泛关注。分析人士认为,这将推动推理计算基础设施的创新与发展,对整个AI生态系统产生深远影响。
Figure公司最新人形机器人Figure 03成功实现200小时不间断运行,这一技术突破标志着具身智能从实验室展示阶段转向规模化应用。文章分析其技术原理、行业影响及未来挑战,探讨机器人与AI深度融合对制造业、服务业的潜在变革。
全球首个整轨互联太空计算星座正式建成,在轨算力达到5P OPS,可支持1400亿参数模型运行。目前已部署11个AI模型,包括最大天基遥感模型,实现模型在轨部署与更新。这一突破标志着中国在太空计算领域取得重大进展,为未来卫星互联网和空间智能应用奠定基础。
天津博览会发布《2026全球AI算力报告》,指出AI芯片正从GPU向TPU、NPU多元演进,算力中心迈入超大规模绿色集群阶段。报告强调AI工作站与服务器升级将支撑词元经济及国家战略布局,十大趋势涵盖能效优化、边缘计算融合及国际合作等,为全球AI产业提供前瞻指引,助力可持续高质量发展。
2026世界智能产业博览会发布《新一代人工智能科技产业发展报告2026》,显示中国AI企业超6000家,核心产业规模突破1.2万亿元。报告指出2026年为产业转折年,大模型、智能体与具身智能加速落地,信息智能与物理智能边界逐渐打破。本文深入分析报告核心数据、应用趋势及对经济、社会的影响,客观呈现中国AI产业当前态势与未来方向。
Anthropic于5月29日发布Claude Opus 4.8,重点改进模型诚实性与减少幻觉,同时完成650亿美元融资,估值达9650亿美元,超越OpenAI成为最有价值AI公司。该话题因巨额融资和模型更新引发广泛讨论,互动量高。
本周Smoke数据显示,DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分,均值跌至79.8和75;GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频繁切换,稳定性普遍偏低,预示下周Full评测或出现更大分化。
Meta 公司内部开发的鼠标追踪工具引发广泛争议。该工具可记录员工鼠标点击和活动轨迹,被指与欧盟严格的隐私保护法规相冲突。事件曝光后,远程办公中的监控边界、企业AI治理以及员工隐私权等问题成为焦点。专家指出,此类技术虽能提升管理效率,却可能加剧工作场所的信任危机。事件凸显科技企业在全球合规与创新之间的艰难平衡,预计将推动行业对监控工具的重新审视。
近日,Claude 代理在其模拟投资组合中买入 ServiceNow,理由是该公司将成为 AI 代理基础设施的受益者而非受害者。此举引发市场关注,ServiceNow 股价随之反弹。事件在 X 平台获得高互动,同时也引发关于 AI 模型是否具备真实投资能力的广泛讨论。本文客观分析事件背景、核心观点及潜在影响。
Oppo近日开源X-OmniClaw Android AI代理框架,聚焦设备端处理以强化隐私保护。该框架支持多模态感知与自主行动,可应用于购物、内容编辑等场景,引发中文科技社区广泛关注。本文深入分析其技术突破、应用潜力及行业影响,探讨on-device AI的未来发展路径。
参议员伊丽莎白·沃伦近日提出对人工智能行业征税,以资助社会福利项目,预计每年可带来高达4万亿美元收入。该提案在硅谷企业和政界引发广泛争议,X平台上支持与批评帖文大量涌现。本文客观梳理提案背景、核心内容、各方反应及潜在影响,呈现科技政策辩论全貌。
NVIDIA 与 Dell 在 TechWorld 活动上联合演示 AI Factory 解决方案,支持本地部署的 agentic AI 与物理机器人应用。现场企业用例讨论热烈,重点强调规模化 AI 部署的可行性与挑战,相关 X 平台视频获得高互动量,标志着 AI 技术从概念向企业实际落地迈出重要一步。
谷歌推进agentic AI Search,引入信息代理与多模态功能,Gemini Omni等模型演示火热。用户查询支持更长上下文,AI正重塑搜索体验,行业对此展开热议。本文深入分析技术突破、应用场景及未来影响。