返回 2026-05-13
🤖 AI / ML

思维机器与交互模型Thinking Machines and interaction models

seangoedecke.com·2026-05-12

Thinking Machines发布其首款真正的人工智能模型——'交互模型',标志着该公司在成立一年后首次推出核心AI产品。该模型并非前沿大模型,不直接对标OpenAI、Anthropic或Google等巨头。公司投入20亿美元资本,专注于解决人机交互中的具体问题,旨在构建更自然、高效的AI协作方式。此举表明AI领域正从通用模型向垂直场景应用深化发展。

Thinking Machines 刚刚发布了 Interaction Models。这是他们在一年工作和两亿美元投入后推出的首个真正的人工智能模型。那么,“交互模型”究竟是什么?首先,它并非前沿模型。Thinking Machines 目前还无法与 OpenAI、Anthropic 和 Google 竞争。

相反,他们致力于解决与模型进行更好实时交互的问题。他们所做的事情中,有些部分完全不是新东西,有些则是略有争议的基准测试游戏,还有一些则代表了真正的技术突破。我将尝试逐一说明。

全双工语音模型

如果你用过 ChatGPT 的音频模式,就会知道你无法像跟人类对话那样直接与之交谈。在你说完之后,模型才开始回应,中间存在明显的延迟。它不会像人类一样打断你,也不会在你打断它时做出反应。当然,你也无法通过面部表情等非语言方式向它提供视觉反馈。

这是因为 ChatGPT 在任何时候都只能是“说话”或“倾听”其中之一。当你说话时,它处于“倾听”模式;当它说话时,则处于“说话”模式,且在此期间不会接收你的任何信息。它依赖 VAD(“语音活动检测”)来判断你是否在讲话。而“交互模型”所做的替代方案,正是全双工系统——模型可以同时处于“倾听”和“说话”两种模式。

当然,模型本身无法真正实现这一点。和所有语言模型一样,它要么在进行预填充(prefill,即输入提示词),要么在进行解码(decode,即生成补全文本)。但全双工模型可以做到的是,以极小的“微回合”(micro-turns)为单位,在“倾听”和“说话”模式之间快速切换。它不再需要等待你讲完十秒钟,再等它回应十秒钟,而是可以每200毫秒听一次,再输出200毫秒,如此循环往复。当用户说话时,模型通常会输出静音;但如果判断有必要打断你或与你同时发言,它也能做到。

到目前为止,这些都还算不上新颖。Thinking Machines 博客中已经提到了许多全双工音频系统的例子:Moshi、PersonaPlex、Nemotron-VoiceChat 等等。但至少这明确了“交互模型”所处的领域:不是“通过前沿模型实现超级智能”,而是“实现更好的实时对话交互”。既然如此,Thinking Machines 又做了哪些创新呢?

委托推理

对于现有的全双工模型,用户是直接与模型本身对话。这其实是个大问题,因为全双工模型必须足够快——快到能在仅200毫秒的微回合中运行。如此快速的模型,自然难以具备高智能。

Thinking Machines 的解决方案是引入一个真正的智能模型——任何常规的语言模型都可以——作为后台支持,由交互模型将任务委托给它处理。实际上这可能是通过工具调用实现的。交互模型继续维持对话,而智能模型则在后台工作,其输出会像音频和视频输入一样,直接集成到交互模型的上下文中(这个想法我觉得真的很酷)。

这倒是有趣,不过目前还不清楚它在实际应用中表现如何。当更智能的模型输出逐渐流入时,该模型能否进行大量“哦等等,我刚才说的那句话太蠢了,算了”的自我修正?快速交互模型是否足够聪明,能在合适的时间将合适的任务委派出去?总体而言,“从快速但能力较弱的模型开始,并由其逐步移交任务”这一方法,对AI实验室来说一直难以实现,原因多种多样。

如果我不那么宽容,我可能会说,为 Thinking Machines 附加一个强大的推理模型,是一种轻松达成令人印象深刻的基准测试成绩(例如在 FD-bench V3 中勉强胜过 GPT-realtime-2.0)和 BigBench Audio(引入推理模型后分数从 76% 提升至 96%,仅比 GPT-realtime-2.0 低 0.1%)的方式。但如果我宽容一些,我可能会说,一个能够支持实时对话的快速模型,必然需要某种机制来处理复杂任务,将其转交给更慢但更聪明的模型。这两点可能都是正确的。

规模

值得一提的是,Thinking Machines 还为其全双工模型增加了视频输入功能。这听起来可能没那么激动人心,但实际上,面对面的人类交流非常依赖阅读人类表情的能力。理论上,这将解锁实现真正类人对话的可能性。

另一个让人兴奋的原因是,这意味着 Thinking Machines 已经成功构建了一个相当庞大的全双工模型——其活跃参数可能是 Moshi 的两倍,总参数量更是达到 Moshi 的 40 倍。

事实上,这可能是这里最大的真实技术突破。其他全双工模型早已支持微回合和打断,若有意愿,它们本可以相对轻松地委托推理任务,但它们无法处理视频,因为技术上做不到。能够构建出与 DeepSeek V4-Flash 同等规模的全双工模型,确实令人印象深刻。

Thinking Machines 博客的大部分内容都用于解释他们是如何做到这一点的:以更轻量级的方式处理数据,优化其推理库以支持极小的预填充/解码块,以及做出各种使推理过程确定性的决策(这是 Thinking Machines 长期以来的兴趣所在)。

结论

Thinking Machines 面临着推出真正 AI 进步的巨大压力。他们似乎无意或无法在前沿模型领域竞争(这很合理,换作我也不会这么做)。因此,他们强调那些对普通大众来说令人印象深刻的部分——即全双工交互相关的技术——尽管这些部分并不算真正具有创新性,我也能理解他们的做法。

那么什么是交互模型呢?它本质上是在现有全双工模型(如 Moshi)基础上扩展规模并增加多模态能力,同时附加一个额外的智能模型以提升性能(或许还能在基准测试中表现更好)。规模和视频输入部分是新的亮点,整体思路也确实值得肯定。总的来说,我很高兴看到有资金充足、知名度高的 AI 实验室去解决“构建更聪明的前沿模型”之外的问题。我认为 AI 研究的其他领域还有很多唾手可得的成果等待挖掘。

  • 人们似乎真的喜欢 Tinker,这是他们为希望微调模型的研究人员提供的工具,但它并不是大家期待中的那种热门前沿模型。
  • 我觉得 Interaction Models 视频演示特别强调某些功能(比如实时同声传译),而这些功能其实只是全双工音频模型的基本特性,并非其系统独有,这种做法至少有点可疑。
  • 即使是 200 毫秒的延迟也偏长了。从演示中可以看出,模型在完成预填充阶段后切换到解码阶段时,偶尔会出现约半秒的明显卡顿。
  • 如果你喜欢这篇文章,欢迎订阅我的邮件更新以获取新内容,或在 Hacker News 上分享它。

    这里是一篇相关预览文章,与本文共享标签。

    左翼支持 AI 的理由:许多反 AI 论点其实是保守派的观点。我认为左翼的反 AI 情绪部分是对两个与 ChatGPT 兴起无关事件的反应:2022 年的加密狂热,以及 2024 年许多科技 CEO 对唐纳德·特朗普的支持。如果时机不同,我们本可以拥有一个真正的亲 AI 左翼阵营。那会是什么样子?继续阅读……

    需要完整排版与评论请前往来源站点阅读。