生成式AI服务评估标准化：API导向基准测试新范式

2026年03月20日 532 阅读 - 阅读来源: MLC

MLC MLPerf Endpoints 生成式AI基准 API测试 Pareto曲线滚动提交

生成式AI采用率爆炸式增长，仅ChatGPT从中2023年中到2025年初，用户规模就增长了约8倍。Anthropic、Google、Meta、Microsoft、Mistral、OpenAI等巨头模型发布节奏之快，让半年一周期的基准测试显得如地质时代般漫长。对于斥资数百万美元构建推理基础设施的企业，一个问题越来越迫切：如何以反映生产实际的方式比较这些系统？

在GTC大会上，MLCommons联合创始人David Kanter揭晓答案：MLPerf Endpoints，这是行业基准测试记录的彻底重构。MLPerf拥有超过125家成员组织、逾9万条可复现结果，并获IEEE和ISO/IEC SC42认可，已成为政府、产业与学术采购决策的关键支柱。Endpoints旨在维持这份信任，同时适应两年内天翻地覆的生态变迁。您可在此试用。

传统方法为何需变革

传统MLPerf推理基准采用紧密耦合架构：负载生成器与模型服务器作为单一本地进程共享依赖。这在经典ML中有效，但生成式AI部署以API优先——无论本地、云端或托管服务。

同时，GenAI性能测量远非易事。真实服务需融合准确性、延迟、吞吐量与序列长度，形成非线性多维曲面。长尾查询、变异到达模式及严格SLA的交互，简单场景难以捕捉。

API中心架构

MLPerf Endpoints摒弃单体设计，转向解耦客户端，通过标准接口如HTTP或gRPC与任意模型服务API端点通信。基准客户端轻量且生产就绪，被测系统仅需一个URL。提交者零门槛集成——指向端点即可运行。该架构还让托管云服务与裸机部署公平竞技，先前框架难以实现。

底层，新一代可扩展负载生成器采用独立worker进程、预热连接池及基于ZeroMQ的IPC，确保测试框架本身永不成为瓶颈，即便测试机架级系统。

Pareto曲线与阶跃函数：新指标与直观比较可视化

最具创新的是结果呈现方式。每轮基准变异并发度，捕获关键指标，包括TTFT（首token时间）、throughput（tokens/秒）、interactivity（用户tokens/秒）及响应延迟。提交者为每个工作点调优并行与批处理，视觉化工具绘制Pareto曲线（如throughput vs. interactivity）——让买家瞬间洞察现实权衡，例如服务更多用户与保持响应性间的取舍。

关键在于，MLPerf Endpoints使用阶跃函数而非插值趋势线。GenAI性能高度非线性，插值可能虚构未实现水平，掩盖内存溢出或P99延迟峰值。阶跃函数仅展示验证工作点，杜绝“纸面性能”。客户可轻松比较这些函数，并匹配自身场景——白天高并发、夜间极致交互性。

滚动提交：跟上软件更新速度的基准测试

最颠覆性变革在于运营模式。MLPerf传统上按双年周期发布（训练、推理、存储等）。在模型每几周一更的市场，这对RFP撰写与硬件发布太慢。从2026年Q2起，MLPerf Endpoints转向连续滚动提交：提交者随时发布经同行评审与审计的结果。增量提交允许从基线Pareto曲线起步，随软件栈成熟迭代添加点。

此法借鉴SPEC与TPC等标准机构成熟方法，适配AI世界。评审与审计要求丝毫不减，确保行业级鲁棒性。

未来展望

首批MLPerf Endpoints v0.5演示结果来自AMD、Google、Intel、KRAI、NVIDIA等，获超30家组织支持，包括Argonne国家实验室、Broadcom、Dell、HPE、Lambda、Lenovo、Oracle、Red Hat及佛罗里达大学。结果涵盖DeepSeek-R1、GPT OSS 120B、Llama 3.1 8B、QWEN 3 Coder 480B等多款模型，运行于近十种系统。

展望未来，MLCommons邀生态共塑下一步。企业与IT买家可加入顾问委员会；OEM、CSP、ODM贡献结果至滚动排行榜；模型开发者与API提供商集成SOTA模型并规划托管路线；研究者用Endpoints锚定可复现基线。新模型——尤其实用商用热门款——持续评估纳入。您可自行试用。

参与方式：MLPerf Endpoints滚动提交将于2026年Q2开启。欲参与、贡献或了解更多，访问https://mlcommons.org/benchmarks/endpoints/或加入工作组。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

生成式AI服务评估标准化：API导向基准测试新范式

传统方法为何需变革

API中心架构

Pareto曲线与阶跃函数：新指标与直观比较可视化

滚动提交：跟上软件更新速度的基准测试

未来展望

相关测评

MLC AI可靠性地图：规则与环境

MLC 新鲜基准，可靠分数：引入AI风险评估的持续提示管理

MLC MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLC MLCommons发布MLPerf Inference v6.0基准测试最新结果