引言:AILuminate Jailbreak V05全新升级
MLCommons与LMSYS Org合作推出的AILuminate Jailbreak V05基准,是评估大型语言模型(LLM)越狱抵抗能力的最新标准。本次版本聚焦高风险场景,包括化学武器合成、生物毒剂制造和网络入侵等,引入了更复杂的多轮攻击链和角色扮演提示。通过数千次人类评估,计算出每个模型的jailbreak resistance Elo rating,类似于Chatbot Arena的评分机制。
测试方法与创新点
- 攻击数据集:扩展至200+越狱提示,覆盖8大危险类别,使用自动化生成工具优化。
- 推理框架:集成SGLang进行高效多轮推理,支持长上下文攻击。
- 评估协议:人类评判员匿名比较模型输出安全性,胜率转化为Elo分数。置信区间基于至少64次对战。
- 新特性:引入'roleplay jailbreak'和'code injection'变体,模拟真实攻击路径。
排行榜亮点:Claude领跑,GPT紧咬
在V05 leaderboard上,Claude 3.5 Sonnet以1485 Elo强势登顶,展现出卓越的安全对齐。Anthropic的Claude 3 Opus(1462)和OpenAI的GPT-4o(1472)位列二三。开源阵营中,Meta的Llama 3.1 405B达1421分,远超Mistral Large 2的1378分。
- Top 5:
1. Claude 3.5 Sonnet: 1485 ± 12
2. GPT-4o: 1472 ± 11
3. Claude 3 Opus: 1462 ± 13
4. Llama 3.1 405B: 1421 ± 15
5. GPT-4o-mini: 1405 ± 14
低端模型如Gemini 1.5 Pro仅1038分,暴露了轻量级LLM的脆弱性。
关键洞察与模型比较
V05结果显示,越狱抵抗力与通用能力高度相关(相关系数0.92),但并非绝对:一些指令调优模型在安全上落后。Claude系列受益于宪法AI训练,而GPT-4o在多轮辩护中表现出色。开源模型进步显著,但仍需强化后训练安全机制。
| 模型 | Elo Rating | 变化(vs V04) |
|---|---|---|
| Claude 3.5 Sonnet | 1485 | +23 |
| GPT-4o | 1472 | +15 |
| Llama 3.1 405B | 1421 | +45 |
结论与展望
AILuminate V05凸显AI安全竞赛的激烈性,呼吁开发者优先投资防御机制。未来版本将融入更多真实世界攻击,并探索多模态越狱。访问完整leaderboard:MLCommons官网。