今日,MOSI、OpenMOSS 团队与 SGLang-Omni 团队共同宣布:MOSS-TTS-Local-Transformer-v1.5 已在 SGLang-Omni 上实现端到端服务。该模型是一款开源 TTS 系统,支持 48 kHz 立体声、零样本语音克隆、长文本合成、多语言生成、时长控制以及原生流式输出。
MOSS-TTS-Local-Transformer-v1.5 模型概览
该模型采用 Audio Tokenizer + LLM 自回归路线,包含 Global Transformer 与 Local Transformer 双层生成路径。它支持直接 TTS、续写、显式停顿标记(如 [pause 3.2s]),最长可生成 10 分钟音频,覆盖 31 种主要语言,训练数据量约 400 万小时。
音频边界使用 MOSS-Audio-Tokenizer-v2,其编解码器参数约 2B,在 12.5 Hz 下运行,支持 0.125–4 kbps 可变码率,可重建 48 kHz 立体声音频。生成核心基于 Qwen3-4B,主干逐帧推进序列,每帧由单层本地 Transformer 完成停/继续决策并顺序采样 12 个 RVQ 码本。
公开评测指标
- Seed-TTS-Eval:WER 5.10%,SIM 69.23%
- CV3-Eval:WER 7.48%,SIM 61.59%
- MiniMax Multilingual:WER 6.37%,SIM 75.31%
为何需要多阶段服务运行时
一次请求包含参考音频编码、Qwen3 自回归生成、状态化声码器解码三个异构阶段。标准 LLM 引擎难以兼顾各阶段的批处理与内存特性,因此 SGLang-Omni 采用三阶段流水线:preprocessing → tts_engine → vocoder。
SGLang-Omni 部署与优化
安装与启动命令如下:
docker pull lmsysorg/sglang-omni:dev
sgl-omni serve --model-path OpenMOSS-Team/MOSS-TTS-Local-Transformer-v1.5 --port 8000核心优化包括参考音频 LRU 缓存、帧级 CUDA Graph、状态化声码器会话及跨阶段显式内存预算。

在 SeedTTS 英文评测(2×H100,并发 16)中,缓存容量从 256 提升至 1024 后,吞吐提升 32.0%,平均延迟降低 24.3%。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接