この記事はまだ日本語に翻訳されていません。中国語の原文を表示しています。

GPT-5.5在网安测试中追平神话预览版

2026年05月02日 24 約4分 Ars Technica

GPT-5.5 网络安全 AI模型对比 Mythos Preview 科技测评

在人工智能驱动的网络安全领域，一场关于模型能力的辩论正迎来转折点。Ars Technica获取的最新测试报告显示，OpenAI的GPT-5.5在多项网络安全基准测试中，与今春引发轰动的Mythos Preview（神话预览版）表现持平。这一结果迅速在业界引发震动——此前Mythos Preview因其在模拟网络攻击中的惊人表现，被部分观察者誉为“AI安全能力的分水岭”。

测试详情：谁在追赶谁？

本次测试由独立安全研究机构CyberBench牵头，评估了多个前沿大语言模型在红队对抗、漏洞挖掘以及防御策略生成等核心任务上的表现。结果显示，GPT-5.5在“零日漏洞发现效率”和“自适应攻击序列生成”两个子项上得分与Mythos Preview持平，仅在“复杂多阶段攻击模拟”中微弱落后。

“这并非某一特定模型的突破。”测试报告主要作者、CyberBench首席分析师埃琳娜·瓦斯克斯（Elena Vasquez）指出，“GPT-5.5的成绩说明，顶级模型正在吸收彼此的优点，安全能力的军备竞赛正在迅速拉平。”她还强调，Mythos Preview此前被过度炒作，其领先优势仅集中在少数特定攻击向量上。

Mythos Preview：从神话到寻常

Mythos Preview由一家低调的安全AI初创公司研发，4月初发布时宣称能“独立发现90%以上常见漏洞”，并在演示中成功绕过多个企业级防火墙。这一消息曾导致多家安全公司股价波动。然而，本次测试则揭示了其局限性：在防御策略生成和误报率控制方面，GPT-5.5的表现甚至优于Mythos。

OpenAI并未直接回应测试结果，但其安全团队在博客中透露，GPT-5.5采用了“对抗性训练蒸馏”技术，通过在真实攻防数据上反复迭代，使其威胁研判能力获得显著提升。这与Mythos Preview依赖的“模拟强化学习”路线形成对比。

编者按：突破的真假博弈

科技行业似乎永远信奉“下一个重大突破”。但历史反复证明，真正的进步往往来自渐进式的整合与优化。GPT-5.5追平Mythos Preview，意味着在没有根本性架构变革的情况下，通过训练方法和数据工程同样能大幅提升能力。这对投入巨资追逐“颠覆性创新”的初创公司而言，无疑是一记警钟。

另一方面，网络安全的攻防本质决定了没有永恒的领先。Mythos的“神话”或许不会完全破灭，但它提醒我们：在AI安全竞争中，持久迭代比一鸣惊人更重要。企业安全团队不应迷信单一模型，而应构建多层次、多模型协同的防御体系。

影响与展望

分析师预计，这一测试结果将加速AI安全领域的标准化进程。CyberBench计划发布更全面的评估框架，包括模型在不同网络环境下的鲁棒性测试。同时，OpenAI与Mythos的竞争也将促使下一代模型在真实世界部署中接受更严苛的考验。

但也有一些安全专家表示担忧：如果主流AI模型的安全能力趋于同质化，攻击者也可能利用这种同质化设计出更高效的“通用对抗样本”。未来，差异化安全策略与防御多样性或许比绝对能力更值得关注。

本文编译自Ars Technica

测试详情：谁在追赶谁？

Mythos Preview：从神话到寻常

编者按：突破的真假博弈

影响与展望

関連記事