CKAN Croissant:MLCommons AI模型基准新纪元

引言

MLCommons与LMSYS Org联手推出CKAN Croissant基准,这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式,实现模型元数据的无缝标准化与共享。

核心技术与创新

  • Croissant集成:所有参与模型均采用Croissant格式封装,支持自动解析输入/输出规范、tokenizer配置等。
  • CKAN框架:Containerized Knowledge Annotation Network,提供容器化部署,确保基准测试的可复现性。
  • 评估协议:结合Chatbot Arena的Elo Rating(盲测用户偏好)和SGLang的高吞吐推理,覆盖文本生成、多模态任务。

性能排行榜亮点

在首批测试中,GPT-4o以Elo Rating 1325位居榜首,Claude 3.5 Sonnet紧随其后(1310)。开源模型中,Llama 3.1 405B达到1280,超越多数闭源对手。

模型Elo Rating类别
GPT-4o1325闭源
Llama 3.1 405B1280开源
Gemini 1.5 Pro1275闭源

部署与未来展望

CKAN Croissant支持一键Docker部署,开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估,助力AI生态可持续发展。

更多详情见原文链接

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!