引言
在AI大规模训练时代,检查点(Checkpointing)机制是确保训练稳定性和容错性的关键技术。它允许系统在训练中断时快速恢复模型状态,避免从头开始的巨大损失。MLCommons推出的Storage 2基准特别针对Checkpointing进行了优化测试,由LMSYS Org主导开发,旨在为存储系统提供标准化评测。
Storage 2 基准概述
Storage 2 是MLPerf Storage基准的第二代版本,扩展了对现代AI工作负载的支持,包括Transformer-based模型训练。Checkpointing测试模拟真实场景,如分布式多节点训练中周期性保存模型权重、优化器状态和随机种子。
- 核心指标:检查点保存时间(Save Time)、恢复时间(Restore Time)、总吞吐量(Throughput)。
- 测试规模:从单节点到数百GPU集群,支持ResNet-50、BERT和GPT-like模型。
测试配置
基准使用标准硬件栈:NVMe SSD(如Samsung PM1733)、InfiniBand网络(200Gbps+),并集成Slurm调度器。场景分为:
- 同步检查点:所有节点同时写入。
- 异步检查点:节点独立保存,减少阻塞。
- 增量检查点:仅保存变化部分,优化带宽。
关键结果与分析
在典型8节点x8 GPU配置下,顶级系统保存1TB检查点耗时小于5分钟,恢复时间控制在2分钟内。相比Storage 1,吞吐量提升30%,归功于并行文件系统如Lustre和BeeGFS的优化。
| 系统 | 保存时间 (s) | 恢复时间 (s) | 吞吐量 (GB/s) |
|---|---|---|---|
| Baseline NVMe | 420 | 180 | 2.4 |
| Optimized Lustre | 280 | 120 | 3.6 |
瓶颈分析显示,网络延迟和元数据操作是主要挑战,建议采用RDMA和分层存储。
结论与展望
Storage 2 Checkpointing基准为AI基础设施厂商提供了宝贵洞见,推动存储系统向Exascale训练演进。未来版本将集成更多LLM场景,欢迎社区贡献结果至MLCommons官网。