This article has not been translated into English yet. Showing the original Chinese version.

Thinking Machines打造实时对话AI：边听边说

May 12, 2026 17 approx.4min TechCrunch

AI交互实时对话全双工AI Thinking Machines 语音技术

你有没有想过，为什么和AI聊天总是像在打一场有延迟的乒乓球？你发一句话，它停下思考；它回一句，你静静等待。这种‘轮流发言’的模式，早已深深烙印在ChatGPT、Claude、Gemini等主流模型的设计中。但一家名为Thinking Machines的初创公司正试图颠覆这一切：他们想造一个能一边听你说话，一边组织回话的AI。

从‘文字链’到‘电话通话’

‘目前你使用过的每一个AI模型都是以同样的方式工作的：你说，它听；它回应，你听。’Thinking Machines的创始人兼CEO在近期的一次技术分享中解释道。‘我们的目标是从根本上改变这个范式，让AI的交互更像一通电话，而不是一串文本消息。’

传统大语言模型（LLM）的推理过程通常需要完整接收用户输入后才能开始生成——即‘输入-处理-输出’的串行模式。虽然通过流式输出可以逐步显示token，但模型的‘思考’依然集中在处理完所有输入之后。Thinking Machines试图引入一种全双工（full-duplex）架构：模型在接收输入的同时就开始生成输出，通过动态注意力机制并行处理双向数据流。用创始人的话说，‘就像人类对话中，我们经常在别人还没说完时就已经在构思回应了。’

‘我们不是在制造一个更快的回声筒，而是创造一个真正的对话伙伴。’——Thinking Machines技术白皮书

行业背景：为什么这很重要

当前AI语音助手（如Siri、Alexa）和语音模式（如ChatGPT Voice）虽然实现了语音交互，但底层依然是‘先听全、后回答’的逻辑。这种设计在需要即时反馈的场景（如紧急求助、实时翻译、医疗咨询）中会产生令人不适的延迟。此外，用户无法在对话中‘打断’AI，因为模型必须完成当前回答才能处理新的输入——这完全违背了人类对话的自然节奏。

业内已有一些尝试缓解这一问题：例如通过流式推理（streaming inference）缩短首个token的生成时间，或使用级联系统（cascading systems）并行处理部分输入。但Thinking Machines的野心在于从模型架构层面实现真正的‘边听边说’，这需要解决计算资源分配、上下文一致性、以及如何处理输入流尚未结束时生成的输出是否正确等诸多挑战。

编者按：一场‘同时性’的革命

如果Thinking Machines能成功，这将是AI交互体验的一次质变。想象一下，当你向AI描述一个问题时，它可以从第一个音节开始就给出点头、叹气或简短反馈，而不会呆呆地等你说完——这会让AI显得更像一个‘人类’，而非一台机器。但从技术角度看，同时处理输入和输出意味着模型需要维护两个动态上下文窗口，并实时决定哪些信息该优先用于生成，这远非简单的工程优化。

翻看Thinking Machines的团队背景，他们中有人曾参与Google Duplex（能通过电话帮用户预约餐厅的AI）的研究，也有来自Meta AI对话研究组的核心成员。‘我们了解语音交互中每个毫秒的延迟如何破坏沉浸感,’一位研究员表示。‘全双工AI将重新定义人机协作的边界。’

当然，这条路仍面临质疑：隐私和计算成本是两大主要障碍。持续监听需要设备处于激活状态，这会对电池寿命和云端算力造成压力；同时，用户是否接受一个‘随时在听’的AI，也需要心理上的适应。但正如任何颠覆性技术一样，先行者总是要承担最多风险。

本文编译自TechCrunch