NVIDIA 发布 PersonaPlex-7B：全双工语音 AI 登场，终结“对讲机式”对话时代

2026年02月17日 18 约4分钟 winzheng.com

NVIDIA AI PersonaPlex-7B 开源模型全双工语音实时交互大语言模型端到端

【硅谷2026年02月16日讯】 NVIDIA 研究院刚刚投下了一枚重磅炸弹，正式开源发布了名为 PersonaPlex-7B 的最新 AI 模型。这不仅仅是又一个 70 亿参数的语言模型，而是一个专门为实时语音交互设计的端到端系统。它的出现，可能意味着我们习以为常的“你一句、我一句”的笨拙 AI 对话模式即将成为历史。

核心突破：会“插嘴”的 AI

PersonaPlex-7B 最大的亮点在于其全双工（Full-Duplex）能力。

目前的许多主流语音助手（如早期的 Siri 或普通的语音转文字系统）采用的是“半双工”模式：用户说话 -> AI 录音 -> 沉默处理 -> AI 回答。这就像使用对讲机，一方说话时另一方必须保持安静。

PersonaPlex-7B 打破了这一限制。它采用了双流（Dual-stream）架构，能够同时处理“听”和“说”。这意味着：

它可以被随时打断：当 AI 正在长篇大论时，你可以直接插话
“等一下，那个是什么意思？”
，它会像真人一样立即停下并做出反应，延迟仅约为 240毫秒。
自然的语气词：它能在你说话时发出
“嗯”
、
“对”
、
“我在听”
等自然的反馈音（Backchanneling），让对话不再像是在对着机器念稿子。

技术解密：告别拼凑，走向统一

在 PersonaPlex 之前，构建一个语音机器人通常需要拼凑三个独立的模型：

自动语音识别（ASR）：把声音转成字。
大语言模型（LLM）：思考并生成回复的文字。
文本转语音（TTS）：把回复的字念出来。

这种“级联”方式不仅速度慢，而且丢失了声音中的情感信息。PersonaPlex-7B 基于 Moshi 架构，直接在一个模型内完成了所有工作。它使用 Mimi 编解码器将语音转化为 Token，配合 Helium 语言模型骨干，实现了从“音频输入”到“音频输出”的直接映射。

原创内容 © 赢政天下 | 更多AI资讯请访问 Winzheng.com

根据 NVIDIA 的基准测试，PersonaPlex 的首字延迟（Time to First Token）仅为 170毫秒，比人类的平均反应速度还要快。

千人千面：完全可控的“人设”

模型名称中的 "Persona"（人设）并非浪得虚名。NVIDIA 引入了独特的混合提示机制（Hybrid Prompting），让开发者可以通过两个维度精准控制 AI：

语音提示（Voice Prompt）：提供一段几秒钟的音频样本，AI 就能克隆该音色和说话风格。
文本提示（Text Prompt）：用文字定义角色的背景、职业和性格（例如：
“你是一个暴躁但专业的物理老师”
）。

这种能力使得 PersonaPlex-7B 非常适合用于游戏 NPC、虚拟客服、个性化陪伴助手等场景。

开源与未来

NVIDIA 已将 PersonaPlex-7B 的代码（MIT 协议）和模型权重（NVIDIA Open Model License）发布在 Hugging Face 和 GitHub 上。

行业影响：

虽然 OpenAI 的 GPT-4o 和 Google 的 Gemini Live 已经展示了类似的实时语音能力，但它们大多是闭源且付费的服务。NVIDIA 将这种通过 7B 参数量级就能实现的高端体验直接开源，无疑将极大地降低开发者的门槛，甚至让普通用户在自己的消费级显卡（如 RTX 4090）上就能运行一个随时能聊天的“贾维斯”。

核心突破：会“插嘴”的 AI

技术解密：告别拼凑，走向统一

千人千面：完全可控的“人设”

开源与未来

行业影响：

相关链接：

相关推荐