新闻>产品发布

Mira Murati首秀:Thinking Machines发布交互模型,AI开始「边听边说」

2026-05-1136氪 / TechCrunch阅读时间 8 分钟

🎤 沉默18个月后,Mira Murati终于亮牌了。前OpenAI CTO创办的Thinking Machines Lab发布了首款「交互模型」(Interaction Model),声称AI对话终于可以像真人聊天一样——边听边说,不再需要「你说完我再说」的对讲机模式。

核心数据

  • ⏱️ 响应延迟:0.40秒(GPT-realtime-2.0为1.18秒,Gemini为0.57秒)
  • 🏆 交互质量基准 FD-bench V1.5:77.8分(GPT-realtime-2.0仅46.8分)
  • 🏗️ 双层架构:交互模型(表层实时对话)+ 背景模型(深度推理)
  • 💰 公司种子融资:20亿美元(a16z领投),估值120亿美元
  • 🧠 核心技术:200毫秒「微回合」,全双工同时处理输入与输出
AI交互的「对讲机」时代结束了?

我们和AI聊天的方式,本质上还停留在对讲机时代——你说一句,我回一句,中间还有一段尴尬的沉默。AI在「听」你说话的时候,它是「又瞎又聋」的;它在「说」的时候,也完全不知道你是不是已经想插嘴了。

Thinking Machines的交互模型要打破的就是这个限制。他们实现的是「全双工」——就像打电话一样,双方可以同时说和听,AI能在你说话的时候感知你的语气变化,你也能在AI说话的时候随时插话。

传统AI对话 vs 交互模型对比
📻 传统对讲机模式👤 用户说话🤖 AI等待...(沉默)🤖 AI回复📞 交互模型(全双工)👤+🤖 同时双向交流听+说 同时进行200ms微回合切片音频+视频+文本三流同步可随时插话、打断⏱️ 响应延迟对比GPT-realtime-2.0: 1.18秒Gemini: 0.57秒TML交互模型: 0.40秒 ✨
200毫秒「微回合」:把交互训练进模型本身

传统方案的做法是:在模型外面套一层语音活动检测(VAD)和文字转语音(TTS),本质上还是在用「工具箱」拼凑交互能力。Thinking Machines的思路完全不同——交互能力直接训练进模型架构本身

🏗️ 双层架构设计

表层 — 交互模型

一直在线,持续与用户双向交流。200ms一个「微回合」,每段同时处理输入与输出,音频、视频、文本三条流同步进行。

底层 — 背景模型

负责深度推理、工具调用、长链条任务。完成后由交互模型选择合适时机「织入」对话。

结果:用户同时享受「即时响应」和「深度智能」,无需二选一。

这意味着交互能力会随模型规模扩展而提升,而不是像传统方案那样——模型越来越聪明,但交互体验始终受限于外挂组件的天花板。

Murati的哲学:AI应该让人类留在循环中

💭 两条路线的根本分歧

主流方向:AI更自主

把人推出循环,让AI自己决策、自己执行。更少的干预,更多的自动化。

TML方向:人留在循环

扩大人机沟通带宽,让用户脑子里的隐性知识能流入AI决策过程。AI是协作伙伴,不是替代者。

这两种哲学没有对错,但决定了完全不同的产品形态。如果AI是工具,那越自主越好;如果AI是伙伴,那沟通的质量才是关键。Murati选择的是后者。

从团队出走到技术首秀

Thinking Machines的18个月并不顺利。联合创始人陆续离开,部分转投Meta或重返OpenAI,最终只剩John Schulman一位联合创始人留守。但Murati请来了PyTorch创造者Soumith Chintala担任CTO,在成立15个月内交付了这个技术Demo。

📋 发布计划

  • • 当前状态:研究预览版,尚未公开发布
  • • 未来数月:开放有限研究预览
  • • 今年晚些时候:更广泛发布
  • • 模型名称:TML-Interaction-Small

0.4秒的延迟和77.8分的交互质量基准确实令人印象深刻,但这毕竟是「Small」版本,在更复杂的真实场景中表现如何还需验证。交互模型的真正价值,不在于它的技术参数有多漂亮,而在于它能否真正改变人和AI协作的方式——从「发号施令」变成「对话共创」。

原文来源: 36氪 | TechCrunch