Storage 2 检查点机制详解

2026年02月10日 12 约3分钟 MLC

MLC MLCommons Storage 2 Checkpointing AI基准分布式训练

引言

在AI大规模训练时代，检查点（Checkpointing）机制是确保训练稳定性和容错性的关键技术。它允许系统在训练中断时快速恢复模型状态，避免从头开始的巨大损失。MLCommons推出的Storage 2基准特别针对Checkpointing进行了优化测试，由LMSYS Org主导开发，旨在为存储系统提供标准化评测。

Storage 2 基准概述

Storage 2 是MLPerf Storage基准的第二代版本，扩展了对现代AI工作负载的支持，包括Transformer-based模型训练。Checkpointing测试模拟真实场景，如分布式多节点训练中周期性保存模型权重、优化器状态和随机种子。

核心指标：检查点保存时间（Save Time）、恢复时间（Restore Time）、总吞吐量（Throughput）。
测试规模：从单节点到数百GPU集群，支持ResNet-50、BERT和GPT-like模型。

测试配置

基准使用标准硬件栈：NVMe SSD（如Samsung PM1733）、InfiniBand网络（200Gbps+），并集成Slurm调度器。场景分为：

同步检查点：所有节点同时写入。
异步检查点：节点独立保存，减少阻塞。
增量检查点：仅保存变化部分，优化带宽。

关键结果与分析

在典型8节点x8 GPU配置下，顶级系统保存1TB检查点耗时小于5分钟，恢复时间控制在2分钟内。相比Storage 1，吞吐量提升30%，归功于并行文件系统如Lustre和BeeGFS的优化。

系统	保存时间 (s)	恢复时间 (s)	吞吐量 (GB/s)
Baseline NVMe	420	180	2.4
Optimized Lustre	280	120	3.6

瓶颈分析显示，网络延迟和元数据操作是主要挑战，建议采用RDMA和分层存储。

结论与展望

Storage 2 Checkpointing基准为AI基础设施厂商提供了宝贵洞见，推动存储系统向Exascale训练演进。未来版本将集成更多LLM场景，欢迎社区贡献结果至MLCommons官网。

引言

Storage 2 基准概述

测试配置

关键结果与分析

结论与展望

相关推荐