CKAN Croissant：MLCommons AI模型基准新纪元

2026年02月10日 1,234 阅读 - 阅读来源: MLC

MLC MLCommons CKAN Croissant AI基准 LMSYS

CKAN Croissant：MLCommons AI模型基准新纪元

引言

MLCommons与LMSYS Org联手推出CKAN Croissant基准，这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式，实现模型元数据的无缝标准化与共享。

核心技术与创新

Croissant集成：所有参与模型均采用Croissant格式封装，支持自动解析输入/输出规范、tokenizer配置等。
CKAN框架：Containerized Knowledge Annotation Network，提供容器化部署，确保基准测试的可复现性。
评估协议：结合Chatbot Arena的Elo Rating（盲测用户偏好）和SGLang的高吞吐推理，覆盖文本生成、多模态任务。

性能排行榜亮点

在首批测试中，GPT-4o以Elo Rating 1325位居榜首，Claude 3.5 Sonnet紧随其后（1310）。开源模型中，Llama 3.1 405B达到1280，超越多数闭源对手。

模型	Elo Rating	类别
GPT-4o	1325	闭源
Llama 3.1 405B	1280	开源
Gemini 1.5 Pro	1275	闭源

部署与未来展望

CKAN Croissant支持一键Docker部署，开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估，助力AI生态可持续发展。

更多详情见原文链接。

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！