Shopify VLM推理基准测试详解

引言

MLCommons组织发布了最新的VLM(Vision-Language Model)推理基准测试结果,其中Shopify团队的提交备受关注。此次测试由LMSYS Org支持,聚焦视觉语言模型在高负载电商场景下的推理性能,旨在为生产部署提供标准化评估。

测试框架与模型

基准采用MLPerf Inference v5.0框架,核心模型包括LLaVA-1.5-7BMiniCPM-V 2.6。数据集涵盖ImageNet-VQA、VQAv2等,模拟电商视觉问答、产品描述生成等真实任务。

  • 指标:吞吐量(images/sec)、延迟(ms)、准确率(准确度分数)。
  • 硬件:NVIDIA A100/H100 GPU,软件栈包括vLLM、SGLang。

Shopify优化亮点

Shopify团队巧妙集成SGLang进行动态批处理和KV缓存优化,在单A100上实现150+ images/sec吞吐量,端到端延迟低于200ms,Elo Rating达1250+,超越多家云厂商提交。

关键结果对比

提交者模型吞吐量 (img/s)延迟 (ms, p99)准确率
ShopifyLLaVA-1.5-7B16818578.5%
Cloud Vendor ALLaVA-1.5-7B14221076.2%
Cloud Vendor BMiniCPM-V15519577.8%

图表显示Shopify在多GPU扩展性上领先,8x A100配置下线性缩放至1200+ img/s。

挑战与启示

测试暴露VLM推理痛点:高分辨率图像预处理耗时、长上下文Token爆炸。Shopify建议采用量化(INT8)和Speculative Decoding,提升部署效率。

结论

本次VLM推理基准彰显Shopify在AI基础设施的实力,推动电商VLM落地。未来期待更多开源优化,敬请关注MLCommons更新。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!