嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

NVIDIA DGX Spark 深度评测:本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内存,支持 FP4 精度下高达 1 PFLOP 计算力。测试显示,在 SGLang 和 Ollama 框架下,DGX Spark 擅长运行小型模型(如 Llama 3.1 8B),批处理时吞吐量出色;大型模型(如 Llama 3.1 70B)适合原型开发。统一内存设计消除数据传输开销,投机解码可加速 2 倍。尽管内存带宽(273 GB/s)是瓶颈,但其外观精美、散热优秀,适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型,是开发者理想平台。(128 字)

NVIDIA DGX Spark AI推理
02-04 53
LMSYS

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

SGLang Nemotron 3 Nano
02-04 15

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap