AI原创资讯 | 嬴政天下

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内存，支持 FP4 精度下高达 1 PFLOP 计算力。测试显示，在 SGLang 和 Ollama 框架下，DGX Spark 擅长运行小型模型（如 Llama 3.1 8B），批处理时吞吐量出色；大型模型（如 Llama 3.1 70B）适合原型开发。统一内存设计消除数据传输开销，投机解码可加速 2 倍。尽管内存带宽（273 GB/s）是瓶颈，但其外观精美、散热优秀，适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型，是开发者理想平台。（128 字）

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性，在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量：每 GPU 预填充 26k 输入 token/秒，解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中，Blackwell GPU（GB200/B200）搭配 SGLang 比 Hopper GPU（H100/H200）性能提升高达 4 倍，覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化，充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型，并加强与 SemiAnalysis 合作。（128 字）

SGLang-Jax：原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎，完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构，利用Jax编译模型前向传播，实现快速原生TPU推理，同时支持连续批处理、前缀缓存、张量并行、专家并行、推测解码、内核融合等高级特性。基准测试显示，其性能匹敌或超越其他TPU推理方案，并在GPU方案中保持竞争力。项目代码开源于GitHub，适用于Google DeepMind、xAI等领先AI实验室的Jax生态。架构纯Jax实现，集成Ragged Paged Attention v3、MoE优化及EAGLE推测解码等关键技术，大幅降低调度开销并提升吞吐量。未来路线图涵盖更多模型支持、量化内核及RL集成。（128字）

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后，我们与NVIDIA紧密合作，在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型，支持SGLang框架。性能亮眼：GPT-OSS 20B达到约70 tokens/s，GPT-OSS 120B约50 tokens/s，堪称目前最先进水平，完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面，甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频，助力用户将DGX Spark打造成强大的本地AI工作站。（128字）

无免费午餐：MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因：基准测试虽显示平齐，但现实中暴露多跳推理等缺陷；基础设施不成熟导致内存瓶颈和推理兼容难题；混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下，方能从理论走向生产。（128字）

SGLang Diffusion：加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成，支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口，提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作，构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术（如 USP、CFG-parallelism），确保高效灵活。基准测试显示，在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。（128字）

🚀 AutoRound 携手 SGLang：高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作，支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术，实现 INT2-INT8 等低比特量化，在 INT2 精度下相对准确率提升高达 2.1 倍，量化 72B 模型仅需 37 分钟。集成后，开发者可直接在 SGLang 运行时部署量化模型，显著降低延迟。该方案支持多种架构、设备和格式，社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化，推动多模态和代理任务部署。（128 字）

Miles发布：点燃大规模MoE训练的企业级RL框架

千里之行，始于足下。今天，RadixArk团队发布了Miles，一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建，后者已悄然驱动众多后训练管道和大模型MoE训练（如GLM-4.6）。slime证明了轻量设计的可行性，而Miles则更进一步，提供企业级可靠性和大规模控制。新功能包括真On-Policy支持（KL散度精确为0）、内存优化、在线草稿模型训练（rollout加速25%以上）等。未来将支持GB300硬件、多模态训练和弹性扩展，助力高效可靠的RL训练。（128字）

LMSYS博士奖学金计划正式启动

LMSYS欣喜宣布博士奖学金计划正式启动！该计划专为美国全日制博士生设计，针对那些在开源AI基础设施社区做出重大贡献的学生。获奖者将获得高达50,000美元资助，用于未来两年的学费和相关费用。申请期为2025年11月23日至12月7日，评估标准包括研究与开源贡献的影响力，以及与LMSYS兴趣领域的契合度。获奖名单将于截止后几周公布。感兴趣的博士生可将申请声明和简历发送至fellowship@lmsys.org。该计划由Ying and Lianmin Giving Fund捐赠支持，助力开源AI生态发展。（128字）

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略，支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用，由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。（128字）

从研究到生产：EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码（Speculative Decoding）能显著提升LLM推理速度，但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案，仅在目标模型内部层添加轻量级草稿头（仅占2-5%模型大小），简化训练并实现2x-3x解码加速。本文详述从数据清洗、嵌入生成、训练到使用SGLang在Vertex AI大规模部署的完整管道，分享关键挑战与经验教训，包括合成数据管道、离线训练、聊天模板应用、掩码处理及Zero-Overhead Overlap Scheduler优化。基准测试显示，在Llama 4 Scout 17B上，EAGLE-3显著降低TPOT并提升吞吐量。（128字）

SGLang推理加速：原生集成NVIDIA Model Optimizer，实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化！这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程，无需多步工具切换。通过SGLang中的ModelOpt API，只需三步即可完成量化（支持NVFP4、MXFP4、FP8等）、导出与部署。性能表现突出：在NVIDIA B200上，Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构，从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码，助力开发者快速上手。（128字）

让张量翱翔：R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork（Tensor Remote Fork），一种创新的权重加载方法，利用高效的跨节点设备间互连，从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势：显著加速权重加载（如 Deepseek-R1 从数分钟缩短至秒级）、消除本地磁盘/DRAM 冗余存储（节省约 600GB）、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构，支持 NCCL 和 TransferEngine 两种后端。性能测试显示，在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短，已实现生产就绪。

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4 精度下，通过 Quantization-Aware Distillation (QAD) 技术保持高准确率，同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先，适用于构建企业级 AI 代理。SGLang 提供即插即用支持，开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。（128 字）

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B，激活参数仅15B，专为最大化解码效率而设计，核心采用滑动窗口注意力（SWA）和多层MTP机制。该模型针对真实服务负载优化，支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时，几乎零开销支持多层MTP和高效SWA执行，在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持，并提供基准数据与部署指南。（128字）

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API，支持Llama-3和Qwen-3模型，适合学习和研究原型开发。基准测试显示，在H200 GPU上，Mini-SGLang的离线吞吐量超越Nano-vLLM，在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销，利用FlashAttention-3和FlashInfer内核，确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具，便于调试和比较vLLM、TensorRT-LLM等系统。（128字）

SGLang 赋能扩散大模型：即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制，该系统实现了无缝集成、无需核心架构变更、继承现有推理优化，并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM，展现出优异的数据理解能力和更快推理速度，尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战，现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持，利用 Chunked-Prefill 管道，仅微调关键组件，实现高效批处理与流式输出，显著提升吞吐量（如 LLaDA2.0-flash-CAP 达 935 tokens/s）。（128字）

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴，推出SpecBundle（Phase 1），这是基于大规模数据集训练的生产级EAGLE3模型检查点集合，旨在提升推测解码的可用性和实际性能，第一阶段聚焦指令微调模型。同时，SpecForge v0.2带来重大系统升级，包括全面重构以提升易用性，并支持多执行后端，进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题，推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。（128字）