This article has not been translated into English yet. Showing the original Chinese version.

Thinking Machines打造实时对话AI:边听边说

当前所有AI模型的交互方式都类似:用户说话,AI倾听;AI回应,用户倾听。Thinking Machines正试图打破这一模式,构建能同时处理输入和生成输出的模型,使对话更像实时电话而非文字链。这一创新有望让AI交互更自然、流畅,减少延迟感。

你有没有想过,为什么和AI聊天总是像在打一场有延迟的乒乓球?你发一句话,它停下思考;它回一句,你静静等待。这种‘轮流发言’的模式,早已深深烙印在ChatGPT、Claude、Gemini等主流模型的设计中。但一家名为Thinking Machines的初创公司正试图颠覆这一切:他们想造一个能一边听你说话,一边组织回话的AI。

从‘文字链’到‘电话通话’

‘目前你使用过的每一个AI模型都是以同样的方式工作的:你说,它听;它回应,你听。’Thinking Machines的创始人兼CEO在近期的一次技术分享中解释道。‘我们的目标是从根本上改变这个范式,让AI的交互更像一通电话,而不是一串文本消息。’

传统大语言模型(LLM)的推理过程通常需要完整接收用户输入后才能开始生成——即‘输入-处理-输出’的串行模式。虽然通过流式输出可以逐步显示token,但模型的‘思考’依然集中在处理完所有输入之后。Thinking Machines试图引入一种全双工(full-duplex)架构:模型在接收输入的同时就开始生成输出,通过动态注意力机制并行处理双向数据流。用创始人的话说,‘就像人类对话中,我们经常在别人还没说完时就已经在构思回应了。’

‘我们不是在制造一个更快的回声筒,而是创造一个真正的对话伙伴。’——Thinking Machines技术白皮书

行业背景:为什么这很重要

当前AI语音助手(如Siri、Alexa)和语音模式(如ChatGPT Voice)虽然实现了语音交互,但底层依然是‘先听全、后回答’的逻辑。这种设计在需要即时反馈的场景(如紧急求助、实时翻译、医疗咨询)中会产生令人不适的延迟。此外,用户无法在对话中‘打断’AI,因为模型必须完成当前回答才能处理新的输入——这完全违背了人类对话的自然节奏。

业内已有一些尝试缓解这一问题:例如通过流式推理(streaming inference)缩短首个token的生成时间,或使用级联系统(cascading systems)并行处理部分输入。但Thinking Machines的野心在于从模型架构层面实现真正的‘边听边说’,这需要解决计算资源分配、上下文一致性、以及如何处理输入流尚未结束时生成的输出是否正确等诸多挑战。

编者按:一场‘同时性’的革命

如果Thinking Machines能成功,这将是AI交互体验的一次质变。想象一下,当你向AI描述一个问题时,它可以从第一个音节开始就给出点头、叹气或简短反馈,而不会呆呆地等你说完——这会让AI显得更像一个‘人类’,而非一台机器。但从技术角度看,同时处理输入和输出意味着模型需要维护两个动态上下文窗口,并实时决定哪些信息该优先用于生成,这远非简单的工程优化。

翻看Thinking Machines的团队背景,他们中有人曾参与Google Duplex(能通过电话帮用户预约餐厅的AI)的研究,也有来自Meta AI对话研究组的核心成员。‘我们了解语音交互中每个毫秒的延迟如何破坏沉浸感,’一位研究员表示。‘全双工AI将重新定义人机协作的边界。’

当然,这条路仍面临质疑:隐私和计算成本是两大主要障碍。持续监听需要设备处于激活状态,这会对电池寿命和云端算力造成压力;同时,用户是否接受一个‘随时在听’的AI,也需要心理上的适应。但正如任何颠覆性技术一样,先行者总是要承担最多风险。

本文编译自TechCrunch