NVIDIA 发布 PersonaPlex-7B:全双工语音 AI 登场,终结“对讲机式”对话时代

NVIDIA 正式开源 PersonaPlex-7B,这是一款专为实时全双工语音交互设计的端到端 AI 模型。该模型打破了传统“对话-等待”的模式,支持随时打断、自然语气反馈及极低延迟响应(首字延迟仅 170ms)。它基于 Moshi 架构,融合了“混合提示机制”,允许开发者通过文本和音频精准定制 AI 的性格与音色。作为可在消费级显卡上运行的高性能开源方案,PersonaPlex-7B 旨在让高级语音交互技术普及化。

【硅谷2026年02月16日讯】 NVIDIA 研究院刚刚投下了一枚重磅炸弹,正式开源发布了名为 PersonaPlex-7B 的最新 AI 模型。这不仅仅是又一个 70 亿参数的语言模型,而是一个专门为实时语音交互设计的端到端系统。它的出现,可能意味着我们习以为常的“你一句、我一句”的笨拙 AI 对话模式即将成为历史。

核心突破:会“插嘴”的 AI

PersonaPlex-7B 最大的亮点在于其全双工(Full-Duplex)能力。

目前的许多主流语音助手(如早期的 Siri 或普通的语音转文字系统)采用的是“半双工”模式:用户说话 -> AI 录音 -> 沉默处理 -> AI 回答。这就像使用对讲机,一方说话时另一方必须保持安静。

PersonaPlex-7B 打破了这一限制。它采用了双流(Dual-stream)架构,能够同时处理“听”和“说”。这意味着:

  • 它可以被随时打断: 当 AI 正在长篇大论时,你可以直接插话
    “等一下,那个是什么意思?”
    ,它会像真人一样立即停下并做出反应,延迟仅约为 240毫秒。
  • 自然的语气词: 它能在你说话时发出
    “嗯”
    “对”
    “我在听”
    等自然的反馈音(Backchanneling),让对话不再像是在对着机器念稿子。

技术解密:告别拼凑,走向统一

PersonaPlex 之前,构建一个语音机器人通常需要拼凑三个独立的模型:

  • 自动语音识别(ASR):把声音转成字。
  • 大语言模型(LLM):思考并生成回复的文字。
  • 文本转语音(TTS):把回复的字念出来。

这种“级联”方式不仅速度慢,而且丢失了声音中的情感信息。PersonaPlex-7B 基于 Moshi 架构,直接在一个模型内完成了所有工作。它使用 Mimi 编解码器将语音转化为 Token,配合 Helium 语言模型骨干,实现了从“音频输入”到“音频输出”的直接映射。

原创内容 © 赢政天下 | 更多AI资讯请访问 Winzheng.com

根据 NVIDIA 的基准测试,PersonaPlex 的首字延迟(Time to First Token)仅为 170毫秒,比人类的平均反应速度还要快。

千人千面:完全可控的“人设”

模型名称中的 "Persona"(人设) 并非浪得虚名。NVIDIA 引入了独特的混合提示机制(Hybrid Prompting),让开发者可以通过两个维度精准控制 AI

  • 语音提示(Voice Prompt): 提供一段几秒钟的音频样本,AI 就能克隆该音色和说话风格。
  • 文本提示(Text Prompt): 用文字定义角色的背景、职业和性格(例如:
    “你是一个暴躁但专业的物理老师”
    )。

这种能力使得 PersonaPlex-7B 非常适合用于游戏 NPC、虚拟客服、个性化陪伴助手等场景。

开源与未来

NVIDIA 已将 PersonaPlex-7B 的代码(MIT 协议)和模型权重(NVIDIA Open Model License)发布在 Hugging FaceGitHub 上。

行业影响:

虽然 OpenAIGPT-4oGoogleGemini Live 已经展示了类似的实时语音能力,但它们大多是闭源且付费的服务。NVIDIA 将这种通过 7B 参数量级就能实现的高端体验直接开源,无疑将极大地降低开发者的门槛,甚至让普通用户在自己的消费级显卡(如 RTX 4090)上就能运行一个随时能聊天的“贾维斯”。

相关链接: