引言
MLCommons组织发布了最新的VLM(Vision-Language Model)推理基准测试结果,其中Shopify团队的提交备受关注。此次测试由LMSYS Org支持,聚焦视觉语言模型在高负载电商场景下的推理性能,旨在为生产部署提供标准化评估。
测试框架与模型
基准采用MLPerf Inference v5.0框架,核心模型包括LLaVA-1.5-7B和MiniCPM-V 2.6。数据集涵盖ImageNet-VQA、VQAv2等,模拟电商视觉问答、产品描述生成等真实任务。
- 指标:吞吐量(images/sec)、延迟(ms)、准确率(准确度分数)。
- 硬件:NVIDIA A100/H100 GPU,软件栈包括vLLM、SGLang。
Shopify优化亮点
Shopify团队巧妙集成SGLang进行动态批处理和KV缓存优化,在单A100上实现150+ images/sec吞吐量,端到端延迟低于200ms,Elo Rating达1250+,超越多家云厂商提交。
关键结果对比
| 提交者 | 模型 | 吞吐量 (img/s) | 延迟 (ms, p99) | 准确率 |
|---|---|---|---|---|
| Shopify | LLaVA-1.5-7B | 168 | 185 | 78.5% |
| Cloud Vendor A | LLaVA-1.5-7B | 142 | 210 | 76.2% |
| Cloud Vendor B | MiniCPM-V | 155 | 195 | 77.8% |
图表显示Shopify在多GPU扩展性上领先,8x A100配置下线性缩放至1200+ img/s。
挑战与启示
测试暴露VLM推理痛点:高分辨率图像预处理耗时、长上下文Token爆炸。Shopify建议采用量化(INT8)和Speculative Decoding,提升部署效率。
结论
本次VLM推理基准彰显Shopify在AI基础设施的实力,推动电商VLM落地。未来期待更多开源优化,敬请关注MLCommons更新。