AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下，SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s（2000 token输入），较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE，也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等，精度损失微乎其微。实验验证了端到端性能大幅提升，并分析了内核级加速效果。（128字）

LMSYS

SGLang推理加速：原生集成NVIDIA Model Optimizer，实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化！这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程，无需多步工具切换。通过SGLang中的ModelOpt API，只需三步即可完成量化（支持NVFP4、MXFP4、FP8等）、导出与部署。性能表现突出：在NVIDIA B200上，Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构，从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码，助力开发者快速上手。（128字）

LMSYS

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B，激活参数仅15B，专为最大化解码效率而设计，核心采用滑动窗口注意力（SWA）和多层MTP机制。该模型针对真实服务负载优化，支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时，几乎零开销支持多层MTP和高效SWA执行，在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持，并提供基准数据与部署指南。（128字）

LMSYS

SGLang 赋能扩散大模型：即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制，该系统实现了无缝集成、无需核心架构变更、继承现有推理优化，并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM，展现出优异的数据理解能力和更快推理速度，尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战，现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持，利用 Chunked-Prefill 管道，仅微调关键组件，实现高效批处理与流式输出，显著提升吞吐量（如 LLaDA2.0-flash-CAP 达 935 tokens/s）。（128字）