CKAN Croissant:MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎,支持多模态模型对比。测试覆盖100+模型,顶级表现者包括GPT-4o(Elo 1300+)和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署,推动开源AI公平竞争。未来将扩展至边缘设备基准。(128字)

引言

MLCommons与LMSYS Org联手推出CKAN Croissant基准,这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式,实现模型元数据的无缝标准化与共享。

核心技术与创新

  • Croissant集成:所有参与模型均采用Croissant格式封装,支持自动解析输入/输出规范、tokenizer配置等。
  • CKAN框架:Containerized Knowledge Annotation Network,提供容器化部署,确保基准测试的可复现性。
  • 评估协议:结合Chatbot Arena的Elo Rating(盲测用户偏好)和SGLang的高吞吐推理,覆盖文本生成、多模态任务。

性能排行榜亮点

在首批测试中,GPT-4o以Elo Rating 1325位居榜首,Claude 3.5 Sonnet紧随其后(1310)。开源模型中,Llama 3.1 405B达到1280,超越多数闭源对手。

模型Elo Rating类别
GPT-4o1325闭源
Llama 3.1 405B1280开源
Gemini 1.5 Pro1275闭源

部署与未来展望

CKAN Croissant支持一键Docker部署,开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估,助力AI生态可持续发展。

更多详情见原文链接