CKAN Croissant:MLCommons AI模型基准新纪元

引言

MLCommons与LMSYS Org联手推出CKAN Croissant基准,这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式,实现模型元数据的无缝标准化与共享。

核心技术与创新

  • Croissant集成:所有参与模型均采用Croissant格式封装,支持自动解析输入/输出规范、tokenizer配置等。
  • CKAN框架:Containerized Knowledge Annotation Network,提供容器化部署,确保基准测试的可复现性。
  • 评估协议:结合Chatbot Arena的Elo Rating(盲测用户偏好)和SGLang的高吞吐推理,覆盖文本生成、多模态任务。

性能排行榜亮点

在首批测试中,GPT-4o以Elo Rating 1325位居榜首,Claude 3.5 Sonnet紧随其后(1310)。开源模型中,Llama 3.1 405B达到1280,超越多数闭源对手。

模型Elo Rating类别
GPT-4o1325闭源
Llama 3.1 405B1280开源
Gemini 1.5 Pro1275闭源

部署与未来展望

CKAN Croissant支持一键Docker部署,开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估,助力AI生态可持续发展。

更多详情见原文链接

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!