この記事はまだ日本語に翻訳されていません。中国語の原文を表示しています。

GPT-5.5在网安测试中追平神话预览版

最新网络安全测试结果显示,GPT-5.5与备受瞩目的Mythos Preview(神话预览版)在多项关键指标上不相上下。专家指出,这打破了此前关于Mythos的网络安全能力是“单一模型颠覆性突破”的论断,暗示AI威胁防御的竞争正趋于均衡。测试涵盖渗透测试、漏洞识别与攻击模拟等核心场景。

在人工智能驱动的网络安全领域,一场关于模型能力的辩论正迎来转折点。Ars Technica获取的最新测试报告显示,OpenAI的GPT-5.5在多项网络安全基准测试中,与今春引发轰动的Mythos Preview(神话预览版)表现持平。这一结果迅速在业界引发震动——此前Mythos Preview因其在模拟网络攻击中的惊人表现,被部分观察者誉为“AI安全能力的分水岭”。

测试详情:谁在追赶谁?

本次测试由独立安全研究机构CyberBench牵头,评估了多个前沿大语言模型在红队对抗、漏洞挖掘以及防御策略生成等核心任务上的表现。结果显示,GPT-5.5在“零日漏洞发现效率”和“自适应攻击序列生成”两个子项上得分与Mythos Preview持平,仅在“复杂多阶段攻击模拟”中微弱落后。

“这并非某一特定模型的突破。”测试报告主要作者、CyberBench首席分析师埃琳娜·瓦斯克斯(Elena Vasquez)指出,“GPT-5.5的成绩说明,顶级模型正在吸收彼此的优点,安全能力的军备竞赛正在迅速拉平。”她还强调,Mythos Preview此前被过度炒作,其领先优势仅集中在少数特定攻击向量上。

Mythos Preview:从神话到寻常

Mythos Preview由一家低调的安全AI初创公司研发,4月初发布时宣称能“独立发现90%以上常见漏洞”,并在演示中成功绕过多个企业级防火墙。这一消息曾导致多家安全公司股价波动。然而,本次测试则揭示了其局限性:在防御策略生成和误报率控制方面,GPT-5.5的表现甚至优于Mythos。

OpenAI并未直接回应测试结果,但其安全团队在博客中透露,GPT-5.5采用了“对抗性训练蒸馏”技术,通过在真实攻防数据上反复迭代,使其威胁研判能力获得显著提升。这与Mythos Preview依赖的“模拟强化学习”路线形成对比。

编者按:突破的真假博弈

科技行业似乎永远信奉“下一个重大突破”。但历史反复证明,真正的进步往往来自渐进式的整合与优化。GPT-5.5追平Mythos Preview,意味着在没有根本性架构变革的情况下,通过训练方法和数据工程同样能大幅提升能力。这对投入巨资追逐“颠覆性创新”的初创公司而言,无疑是一记警钟。

另一方面,网络安全的攻防本质决定了没有永恒的领先。Mythos的“神话”或许不会完全破灭,但它提醒我们:在AI安全竞争中,持久迭代比一鸣惊人更重要。企业安全团队不应迷信单一模型,而应构建多层次、多模型协同的防御体系。

影响与展望

分析师预计,这一测试结果将加速AI安全领域的标准化进程。CyberBench计划发布更全面的评估框架,包括模型在不同网络环境下的鲁棒性测试。同时,OpenAI与Mythos的竞争也将促使下一代模型在真实世界部署中接受更严苛的考验。

但也有一些安全专家表示担忧:如果主流AI模型的安全能力趋于同质化,攻击者也可能利用这种同质化设计出更高效的“通用对抗样本”。未来,差异化安全策略与防御多样性或许比绝对能力更值得关注。

本文编译自Ars Technica