Mira Murati首秀:Thinking Machines发布交互模型,AI开始「边听边说」
🎤 沉默18个月后,Mira Murati终于亮牌了。前OpenAI CTO创办的Thinking Machines Lab发布了首款「交互模型」(Interaction Model),声称AI对话终于可以像真人聊天一样——边听边说,不再需要「你说完我再说」的对讲机模式。
核心数据
- ⏱️ 响应延迟:0.40秒(GPT-realtime-2.0为1.18秒,Gemini为0.57秒)
- 🏆 交互质量基准 FD-bench V1.5:77.8分(GPT-realtime-2.0仅46.8分)
- 🏗️ 双层架构:交互模型(表层实时对话)+ 背景模型(深度推理)
- 💰 公司种子融资:20亿美元(a16z领投),估值120亿美元
- 🧠 核心技术:200毫秒「微回合」,全双工同时处理输入与输出
我们和AI聊天的方式,本质上还停留在对讲机时代——你说一句,我回一句,中间还有一段尴尬的沉默。AI在「听」你说话的时候,它是「又瞎又聋」的;它在「说」的时候,也完全不知道你是不是已经想插嘴了。
Thinking Machines的交互模型要打破的就是这个限制。他们实现的是「全双工」——就像打电话一样,双方可以同时说和听,AI能在你说话的时候感知你的语气变化,你也能在AI说话的时候随时插话。
传统方案的做法是:在模型外面套一层语音活动检测(VAD)和文字转语音(TTS),本质上还是在用「工具箱」拼凑交互能力。Thinking Machines的思路完全不同——交互能力直接训练进模型架构本身。
🏗️ 双层架构设计
表层 — 交互模型
一直在线,持续与用户双向交流。200ms一个「微回合」,每段同时处理输入与输出,音频、视频、文本三条流同步进行。
底层 — 背景模型
负责深度推理、工具调用、长链条任务。完成后由交互模型选择合适时机「织入」对话。
结果:用户同时享受「即时响应」和「深度智能」,无需二选一。
这意味着交互能力会随模型规模扩展而提升,而不是像传统方案那样——模型越来越聪明,但交互体验始终受限于外挂组件的天花板。
💭 两条路线的根本分歧
主流方向:AI更自主
把人推出循环,让AI自己决策、自己执行。更少的干预,更多的自动化。
TML方向:人留在循环
扩大人机沟通带宽,让用户脑子里的隐性知识能流入AI决策过程。AI是协作伙伴,不是替代者。
这两种哲学没有对错,但决定了完全不同的产品形态。如果AI是工具,那越自主越好;如果AI是伙伴,那沟通的质量才是关键。Murati选择的是后者。
Thinking Machines的18个月并不顺利。联合创始人陆续离开,部分转投Meta或重返OpenAI,最终只剩John Schulman一位联合创始人留守。但Murati请来了PyTorch创造者Soumith Chintala担任CTO,在成立15个月内交付了这个技术Demo。
📋 发布计划
- • 当前状态:研究预览版,尚未公开发布
- • 未来数月:开放有限研究预览
- • 今年晚些时候:更广泛发布
- • 模型名称:TML-Interaction-Small
0.4秒的延迟和77.8分的交互质量基准确实令人印象深刻,但这毕竟是「Small」版本,在更复杂的真实场景中表现如何还需验证。交互模型的真正价值,不在于它的技术参数有多漂亮,而在于它能否真正改变人和AI协作的方式——从「发号施令」变成「对话共创」。
原文来源: 36氪 | TechCrunch