海外AI精选

精选TechCrunch、MIT科技评论、WIRED等全球顶尖科技媒体AI报道中文,如转载中文请标注本站出处。

TechCrunch MIT Tech Review VentureBeat WIRED AI News
TC

无法作弊的AI排行榜,竟由排名公司资助

人工智能模型层出不穷,竞争白热化,谁是真正的最强?Arena(前身为LM Arena)已成为前沿大语言模型(LLM)的公认公共排行榜,在短短七个月内从加州大学伯克利分校博士研究项目崛起,深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’著称,通过盲测用户投票机制,确保公平性。如今,它甚至获得被其排名的公司资助,引发行业热议。这不仅重塑AI评估标准,也暴露了排行榜背后的权力博弈。

AI排行榜 Arena 大语言模型
94
TC

博士生变身AI裁判:Arena如何主导行业排行榜

人工智能模型层出不穷,竞争白热化,谁来评判最佳?Arena(前身为LM Arena)已成为前沿大语言模型(LLM)的公认排行榜,在短短七个月内,从加州大学伯克利分校的博士研究项目转型为初创公司,深刻影响融资、产品发布和公关周期。这群博士生如何成为AI行业的‘裁判’?本文深入剖析其崛起背后的故事与行业影响。

AI排行榜 Arena 大语言模型
91
TC

OpenAI 发布 GPT-5.4:Pro 与 Thinking 版本重磅登场

OpenAI 近日推出 GPT-5.4 模型,被誉为‘我们最强大且高效的前沿模型,专为专业工作设计’。该模型分为 Pro 和 Thinking 两个版本,前者优化专业任务效率,后者强化复杂推理能力。作为 GPT 系列最新迭代,GPT-5.4 在参数规模、计算效率和多模态处理上实现重大突破,有望重塑企业级 AI 应用,推动行业从通用智能向专业智能转型。TechCrunch 报道称,此次发布标志着 OpenAI 在 AI 竞赛中再度领先。

OpenAI GPT-5.4 人工智能
408
AIN

MWC 2026:SK电信重塑核心业务 全面拥抱AI

在巴塞罗那MWC 2026大会上,SK电信详细阐述了其围绕AI重建公司核心的宏伟计划。这一转型不止于引入新AI工具,而是从网络核心到客服一线全面重构内部系统。公司计划将数据中心容量扩容至吉瓦级,并升级自家大语言模型。该举措标志着电信巨头加速AI融合,旨在引领6G时代智能网络革命,为行业树立标杆。(128字)

SK电信 AI转型 MWC 2026
181
TC

Guide Labs 推出革命性可解释大语言模型 Steerling-8B

Guide Labs 近日开源一款8亿参数大语言模型Steerling-8B,该模型采用全新架构设计,使其行为高度可解释。这标志着AI领域在黑箱模型向透明化转型的关键一步。传统LLM如GPT系列虽强大,但内部决策过程难以追踪,而Steerling-8B通过创新训练方法,让用户能直观理解模型输出逻辑。该开源举措将助力研究者和开发者构建更可靠的AI系统,推动可解释AI(XAI)快速发展。(128字)

大语言模型 可解释AI 开源LLM
260
ARS

AI能从训练数据生成小说近逐字复制品

最新研究揭示,大语言模型(LLMs)记忆了比预期更多的训练数据,甚至能输出小说几乎逐字复制的章节。这挑战了AI公司关于数据仅用于‘学习模式’的说辞,可能引发版权和隐私新争议。研究者通过特定提示测试了多家模型,发现它们能重现如《哈利·波特》或《三体》等作品的完整段落,凸显训练数据集污染问题。未来,这或将推动AI训练范式变革。

大语言模型 训练数据记忆 版权争议
205
MIT

谷歌DeepMind质疑:聊天机器人是否只是道德作秀?

谷歌DeepMind呼吁对大语言模型(LLM)的道德行为进行与编程或数学能力同等的严谨审查。随着LLM性能提升,人们越来越依赖它们扮演伴侣、治疗师、医疗顾问等角色。DeepMind强调,需要开发标准化基准来评估AI在道德困境中的真实表现,而非表面说教。文章探讨了AI伦理评估的紧迫性,以及当前基准测试的不足,呼吁行业共同推动更可靠的道德AI发展。(128字)

谷歌DeepMind 大语言模型 AI道德
299
TC

印度AI实验室Sarvam新模型:开源AI可行性的重大押注

印度AI初创公司Sarvam推出全新模型阵容,包括30亿和105亿参数大语言模型、文本转语音模型、语音转文本模型,以及用于文档解析的视觉模型。这一发布标志着Sarvam对开源AI未来的坚定信心,在全球AI竞争中突出印度本土创新力量。这些模型针对印度多语言环境优化,支持印地语等本地语言,有望推动开源生态在新兴市场的快速发展。

Sarvam AI 开源模型 印度AI
443
TC

Anthropic 发布 Sonnet 4.6:中型模型四月迭代再升级

Anthropic 近日推出 Sonnet 4.6,这是其中型 Sonnet 模型的最新版本,严格遵循公司四个月的更新周期。此次升级在保持高效计算成本的同时,进一步提升了模型的推理能力和多模态处理性能,标志着 Anthropic 在 AI 竞赛中加速布局。Sonnet 4.6 预计将为开发者提供更强大的工具,推动企业级应用的落地,同时凸显 Anthropic 对安全与可控 AI 的持续承诺。(128字)

Anthropic Sonnet 4.6 AI模型
427

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法,提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估,并邀请社区参与,推动AI安全评估标准化。(128字)

MLC MLCommons 越狱攻击
412
TC

Cohere年营收超2.4亿美元 为IPO铺平道路

加拿大AI初创公司Cohere在2025年年度经常性收入(ARR)突破2.4亿美元,彰显企业级AI需求的强劲势头。随着OpenAI和Anthropic等巨头的激烈竞争,这家初创企业正积极筹备潜在IPO。Cohere凭借其专注于企业定制化大语言模型的产品,如Command系列,已吸引众多 Fortune 500 企业客户。本文分析其增长路径、竞争格局及IPO前景,揭示AI行业下半场的企业化趋势。(128字)

Cohere IPO 企业AI
408

训练 Llama 3.1 8B:MLCommons 基准详解

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H100 GPU 上,仅需 2.3 天即可完成预训练,FLOPs 利用率高达 52%。模型在下游任务中表现出色,MMLU 分数达 68.4%,凸显高效训练框架的重要性。该基准为开源社区提供宝贵参考,推动 AI 训练标准化。(128 字)

MLC Llama 3.1 模型训练
480
AIN

微软揭秘:无需触发器即可检测AI潜伏后门

微软研究员推出创新扫描方法,可在不知触发器或预期结果的情况下识别中毒AI模型。针对开放权重大语言模型的供应链漏洞,独特内存泄漏和注意力模式暴露'潜伏特工'威胁。这些后门模型在激活前保持休眠,潜在风险巨大。该技术为企业集成开源LLM提供安全保障,推动AI供应链安全新标准。(128字)

微软AI 后门检测 大语言模型
290
TC

Anthropic 发布 Opus 4.6:新增“代理团队”功能大升级

Anthropic 最新推出 Opus 4.6 模型版本,引入革命性‘代理团队’功能,旨在显著扩展其能力边界和市场吸引力。该更新允许多个 AI 代理协同协作,处理复杂多任务场景,支持企业级应用从自动化客服到科研模拟等多种用途。相比前代,Opus 4.6 在推理速度、多模态处理和安全性上均有优化,助力 Anthropic 在 AI 竞赛中抢占先机,吸引更多开发者和企业客户。

Anthropic Opus 4.6 AI代理团队
291
AIN

微软揭秘:无需触发器即可检测AI休眠代理后门

微软研究人员推出创新扫描方法,能识别中毒的开源大语言模型(LLM),无需知晓触发器或预期结果。组织在使用开源权重LLM时面临供应链漏洞,独特内存泄漏和内部注意力模式暴露了隐藏的‘休眠代理’威胁。这些后门模型在闲置时潜伏,一旦激活即可执行恶意指令。此技术为AI安全注入新活力,帮助防范供应链攻击。(128字)

微软AI 模型安全 休眠代理
280
MIT

《下载》:AI追踪难题与下一代核电革命

《MIT科技评论》的平日通讯《下载》带来科技前沿动态。本期聚焦AI领域最易误解的图表:每当OpenAI、Google或Anthropic发布前沿大语言模型,社区屏息以待METR的评估结果。该图表揭示模型性能与计算资源的关联,却常被误读。同时探讨下一代核能技术如何应对AI数据中心能耗激增,提供可持续能源解决方案。(128字)