Chakra 走向成熟:AI 系统基准测试标准化生态

This article has not been translated into English yet. Showing the original Chinese version.

2023 年 7 月 MLCommons 宣布成立 Chakra 工作组,其核心理念简洁却雄心勃勃:传统基准测试方法已跟不上 AI 系统的飞速迭代。生产级工作负载隐藏在专有代码与模型之后,各类模拟器和回放工具各自为政,而驱动下一代 AI 超级计算机的前沿 LLM 训练、稀疏 MoE 模型及解耦推理等负载变化速度前所未有。

2026 年 5 月 21 日,在 MLSys 2026 产业论坛上,Chakra 工作组发表了里程碑论文《MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces》。论文由 NVIDIA 的 Srinivas Sridharan 与 Georgia Tech 的 Tushar Krishna 共同主持,汇聚 NVIDIA、AMD、Meta 等多家机构贡献。

图1

碎片化的协同设计困境

现代 AI 平台设计涉及数千颗 NPU 集群及高速互联,迭代循环包括观测生产负载、构建代表性基准、模拟器评估、硅验证与规模部署。然而现有工具高度碎片化:超大规模服务商难以共享专有模型,各厂商模拟器互不兼容,MLPerf 等开放基准更新滞后,导致优化孤岛化、上市时间延长。

Chakra 的解决方案:开放执行追踪生态

Chakra 的核心是 Execution Trace(ET),一种基于图的便携式表示,捕获计算操作、通信模式、内存活动、依赖关系及并行策略,而不暴露模型权重或数据集。软件方可向硬件厂商分享追踪,驱动内部模拟与回放,实现无 IP 泄露的协作。

覆盖 AI 基础设施全生命周期

Chakra 支持从 PyTorch、NVIDIA NeMo、vLLM 直接收集追踪,实现真实训练与推理负载的忠实再现;可在现有平台回放以定位瓶颈;用于未来架构模拟;并支持硬件在环验证,提前发现系统问题。

从工作组到成熟生态

Chakra 工作组已扩展至 40 余家成员,包括超大规模厂商、硅提供商与学术机构。生态进展包括 PyTorch 与 NeMo 原生支持、vLLM 集成、ASTRA-sim 兼容,以及 Keysight 与 Scala Computing 的商业采用。

图2

开源追踪库与社区贡献

工作组同步发布开源追踪库,涵盖 GPT-3、Llama、Mixtral 等真实负载追踪,由 Georgia Tech 与 HPE 支持采集。研究人员与初创公司可据此进行基准测试与平台评估,无需访问专有环境。

图3

产业界声音

NVIDIA CTO Michael Kagan 表示,Chakra 是调试与优化 AI 系统不可或缺的框架。AMD 等厂商也强调其在 Instinct 平台上的应用价值。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!