新闻>产品发布

Mira Murati首秀：Thinking Machines发布交互模型，AI开始「边听边说」

2026-05-1136氪 / TechCrunch阅读时间 8 分钟

🎤 沉默18个月后，Mira Murati终于亮牌了。前OpenAI CTO创办的Thinking Machines Lab发布了首款「交互模型」（Interaction Model），声称AI对话终于可以像真人聊天一样——边听边说，不再需要「你说完我再说」的对讲机模式。

核心数据

AI交互的「对讲机」时代结束了？

我们和AI聊天的方式，本质上还停留在对讲机时代——你说一句，我回一句，中间还有一段尴尬的沉默。AI在「听」你说话的时候，它是「又瞎又聋」的；它在「说」的时候，也完全不知道你是不是已经想插嘴了。

Thinking Machines的交互模型要打破的就是这个限制。他们实现的是「全双工」——就像打电话一样，双方可以同时说和听，AI能在你说话的时候感知你的语气变化，你也能在AI说话的时候随时插话。

传统AI对话 vs 交互模型对比

200毫秒「微回合」：把交互训练进模型本身

传统方案的做法是：在模型外面套一层语音活动检测（VAD）和文字转语音（TTS），本质上还是在用「工具箱」拼凑交互能力。Thinking Machines的思路完全不同——交互能力直接训练进模型架构本身。

🏗️ 双层架构设计

表层 — 交互模型

一直在线，持续与用户双向交流。200ms一个「微回合」，每段同时处理输入与输出，音频、视频、文本三条流同步进行。

底层 — 背景模型

负责深度推理、工具调用、长链条任务。完成后由交互模型选择合适时机「织入」对话。

结果：用户同时享受「即时响应」和「深度智能」，无需二选一。

这意味着交互能力会随模型规模扩展而提升，而不是像传统方案那样——模型越来越聪明，但交互体验始终受限于外挂组件的天花板。

Murati的哲学：AI应该让人类留在循环中

💭 两条路线的根本分歧

主流方向：AI更自主

把人推出循环，让AI自己决策、自己执行。更少的干预，更多的自动化。

TML方向：人留在循环

扩大人机沟通带宽，让用户脑子里的隐性知识能流入AI决策过程。AI是协作伙伴，不是替代者。

这两种哲学没有对错，但决定了完全不同的产品形态。如果AI是工具，那越自主越好；如果AI是伙伴，那沟通的质量才是关键。Murati选择的是后者。

从团队出走到技术首秀

Thinking Machines的18个月并不顺利。联合创始人陆续离开，部分转投Meta或重返OpenAI，最终只剩John Schulman一位联合创始人留守。但Murati请来了PyTorch创造者Soumith Chintala担任CTO，在成立15个月内交付了这个技术Demo。

📋 发布计划

0.4秒的延迟和77.8分的交互质量基准确实令人印象深刻，但这毕竟是「Small」版本，在更复杂的真实场景中表现如何还需验证。交互模型的真正价值，不在于它的技术参数有多漂亮，而在于它能否真正改变人和AI协作的方式——从「发号施令」变成「对话共创」。

原文来源： 36氪 | TechCrunch