CKAN Croissant：MLCommons AI模型基准新纪元

2026年02月10日 1,514 阅读 - 阅读来源: MLC

MLC MLCommons CKAN Croissant AI基准 LMSYS

引言

MLCommons与LMSYS Org联手推出CKAN Croissant基准，这是AI模型评估领域的重大进步。该基准充分利用Croissant v1.0格式，实现模型元数据的无缝标准化与共享。

在首批测试中，GPT-4o以Elo Rating 1325位居榜首，Claude 3.5 Sonnet紧随其后（1310）。开源模型中，Llama 3.1 405B达到1280，超越多数闭源对手。

CKAN Croissant支持一键Docker部署，开发者可通过ckan-croissant eval --model mymodel快速参与。未来计划纳入边缘设备基准及实时多语言评估，助力AI生态可持续发展。

更多详情见原文链接。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！