引言
MLCommons与LMSYS Org联手推出CKAN Croissant基准,这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式,实现模型元数据的无缝标准化与共享。
核心技术与创新
- Croissant集成:所有参与模型均采用Croissant格式封装,支持自动解析输入/输出规范、tokenizer配置等。
- CKAN框架:Containerized Knowledge Annotation Network,提供容器化部署,确保基准测试的可复现性。
- 评估协议:结合Chatbot Arena的Elo Rating(盲测用户偏好)和SGLang的高吞吐推理,覆盖文本生成、多模态任务。
性能排行榜亮点
在首批测试中,GPT-4o以Elo Rating 1325位居榜首,Claude 3.5 Sonnet紧随其后(1310)。开源模型中,Llama 3.1 405B达到1280,超越多数闭源对手。
| 模型 | Elo Rating | 类别 |
|---|---|---|
| GPT-4o | 1325 | 闭源 |
| Llama 3.1 405B | 1280 | 开源 |
| Gemini 1.5 Pro | 1275 | 闭源 |
部署与未来展望
CKAN Croissant支持一键Docker部署,开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估,助力AI生态可持续发展。
更多详情见原文链接。