生成式AI采用率爆炸式增长,仅ChatGPT从中2023年中到2025年初,用户规模就增长了约8倍。Anthropic、Google、Meta、Microsoft、Mistral、OpenAI等巨头模型发布节奏之快,让半年一周期的基准测试显得如地质时代般漫长。对于斥资数百万美元构建推理基础设施的企业,一个问题越来越迫切:如何以反映生产实际的方式比较这些系统?
在GTC大会上,MLCommons联合创始人David Kanter揭晓答案:MLPerf Endpoints,这是行业基准测试记录的彻底重构。MLPerf拥有超过125家成员组织、逾9万条可复现结果,并获IEEE和ISO/IEC SC42认可,已成为政府、产业与学术采购决策的关键支柱。Endpoints旨在维持这份信任,同时适应两年内天翻地覆的生态变迁。您可在此试用。
传统方法为何需变革
传统MLPerf推理基准采用紧密耦合架构:负载生成器与模型服务器作为单一本地进程共享依赖。这在经典ML中有效,但生成式AI部署以API优先——无论本地、云端或托管服务。
同时,GenAI性能测量远非易事。真实服务需融合准确性、延迟、吞吐量与序列长度,形成非线性多维曲面。长尾查询、变异到达模式及严格SLA的交互,简单场景难以捕捉。
API中心架构
MLPerf Endpoints摒弃单体设计,转向解耦客户端,通过标准接口如HTTP或gRPC与任意模型服务API端点通信。基准客户端轻量且生产就绪,被测系统仅需一个URL。提交者零门槛集成——指向端点即可运行。该架构还让托管云服务与裸机部署公平竞技,先前框架难以实现。
底层,新一代可扩展负载生成器采用独立worker进程、预热连接池及基于ZeroMQ的IPC,确保测试框架本身永不成为瓶颈,即便测试机架级系统。
本文由 赢政天下编译整理,原文来自海外媒体 - Winzheng.com。
Pareto曲线与阶跃函数:新指标与直观比较可视化
最具创新的是结果呈现方式。每轮基准变异并发度,捕获关键指标,包括TTFT(首token时间)、throughput(tokens/秒)、interactivity(用户tokens/秒)及响应延迟。提交者为每个工作点调优并行与批处理,视觉化工具绘制Pareto曲线(如throughput vs. interactivity)——让买家瞬间洞察现实权衡,例如服务更多用户与保持响应性间的取舍。
关键在于,MLPerf Endpoints使用阶跃函数而非插值趋势线。GenAI性能高度非线性,插值可能虚构未实现水平,掩盖内存溢出或P99延迟峰值。阶跃函数仅展示验证工作点,杜绝“纸面性能”。客户可轻松比较这些函数,并匹配自身场景——白天高并发、夜间极致交互性。
滚动提交:跟上软件更新速度的基准测试
最颠覆性变革在于运营模式。MLPerf传统上按双年周期发布(训练、推理、存储等)。在模型每几周一更的市场,这对RFP撰写与硬件发布太慢。从2026年Q2起,MLPerf Endpoints转向连续滚动提交:提交者随时发布经同行评审与审计的结果。增量提交允许从基线Pareto曲线起步,随软件栈成熟迭代添加点。
此法借鉴SPEC与TPC等标准机构成熟方法,适配AI世界。评审与审计要求丝毫不减,确保行业级鲁棒性。
未来展望
首批MLPerf Endpoints v0.5演示结果来自AMD、Google、Intel、KRAI、NVIDIA等,获超30家组织支持,包括Argonne国家实验室、Broadcom、Dell、HPE、Lambda、Lenovo、Oracle、Red Hat及佛罗里达大学。结果涵盖DeepSeek-R1、GPT OSS 120B、Llama 3.1 8B、QWEN 3 Coder 480B等多款模型,运行于近十种系统。
展望未来,MLCommons邀生态共塑下一步。企业与IT买家可加入顾问委员会;OEM、CSP、ODM贡献结果至滚动排行榜;模型开发者与API提供商集成SOTA模型并规划托管路线;研究者用Endpoints锚定可复现基线。新模型——尤其实用商用热门款——持续评估纳入。您可自行试用。
参与方式:MLPerf Endpoints滚动提交将于2026年Q2开启。欲参与、贡献或了解更多,访问https://mlcommons.org/benchmarks/endpoints/或加入工作组。
© 2026 Winzheng.com 赢政天下 | 本文由赢政天下编译整理,转载请注明来源。原文版权归原作者所有。