MoE模型 - AI资讯 | 赢政天下

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在InferenceXv2基准上较H200提升高达25倍。同时，GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化，显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统，推动前沿推理模型部署成本降低。（128字）

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题，使得在单机上部署万亿参数模型成为可能。

无免费午餐：MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因：基准测试虽显示平齐，但现实中暴露多跳推理等缺陷；基础设施不成熟导致内存瓶颈和推理兼容难题；混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下，方能从理论走向生产。（128字）

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略，支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用，由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。（128字）

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4 精度下，通过 Quantization-Aware Distillation (QAD) 技术保持高准确率，同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先，适用于构建企业级 AI 代理。SGLang 提供即插即用支持，开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。（128 字）

MoE模型 (共5篇)

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

KTransformers加速SGLang的混合推理

无免费午餐：MiniMax M2解构高效注意力机制

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型