Storage 2 检查点机制详解

MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、恢复时间和吞吐量,涵盖多种硬件配置和训练场景。结果显示,高速NVMe SSD和优化网络在高并发检查点下表现出色,帮助开发者评估存储系统在大型模型训练(如LLM)中的瓶颈。LMSYS Org强调,这一基准将推动存储技术向万亿参数模型时代演进,提供标准化评测工具。(128字)

引言

在AI大规模训练时代,检查点(Checkpointing)机制是确保训练稳定性和容错性的关键技术。它允许系统在训练中断时快速恢复模型状态,避免从头开始的巨大损失。MLCommons推出的Storage 2基准特别针对Checkpointing进行了优化测试,由LMSYS Org主导开发,旨在为存储系统提供标准化评测。

Storage 2 基准概述

Storage 2 是MLPerf Storage基准的第二代版本,扩展了对现代AI工作负载的支持,包括Transformer-based模型训练。Checkpointing测试模拟真实场景,如分布式多节点训练中周期性保存模型权重、优化器状态和随机种子。

  • 核心指标:检查点保存时间(Save Time)、恢复时间(Restore Time)、总吞吐量(Throughput)。
  • 测试规模:从单节点到数百GPU集群,支持ResNet-50、BERT和GPT-like模型。

测试配置

基准使用标准硬件栈:NVMe SSD(如Samsung PM1733)、InfiniBand网络(200Gbps+),并集成Slurm调度器。场景分为:

  • 同步检查点:所有节点同时写入。
  • 异步检查点:节点独立保存,减少阻塞。
  • 增量检查点:仅保存变化部分,优化带宽。

关键结果与分析

在典型8节点x8 GPU配置下,顶级系统保存1TB检查点耗时小于5分钟,恢复时间控制在2分钟内。相比Storage 1,吞吐量提升30%,归功于并行文件系统如Lustre和BeeGFS的优化。

系统保存时间 (s)恢复时间 (s)吞吐量 (GB/s)
Baseline NVMe4201802.4
Optimized Lustre2801203.6

瓶颈分析显示,网络延迟和元数据操作是主要挑战,建议采用RDMA和分层存储。

结论与展望

Storage 2 Checkpointing基准为AI基础设施厂商提供了宝贵洞见,推动存储系统向Exascale训练演进。未来版本将集成更多LLM场景,欢迎社区贡献结果至MLCommons官网。