新闻→产品发布

OpenAI发布三款实时语音模型，语音智能体时代正式开启

📅 2026年5月9日📰 IT之家 / 财新网⏱️ 阅读时间 9 分钟

🎙️ 语音AI不再是「一问一答」了。OpenAI于5月8日推出三款实时语音模型——GPT-Realtime-2领衔，分别专注于推理、翻译和转录。新一代语音智能体可以在对话中同步完成倾听、思考、翻译、执行工具调用——语音交互正式进入多任务并行时代。

三款实时语音模型一览

从语音助手到语音智能体的质变

以前的语音AI，本质上是一个「语音转文字 → 处理 → 文字转语音」的串行管道。你说一句，它答一句。中间有延迟，任务只能一个个来。

OpenAI这次推出的模型，直接在语音层面处理信息。不再需要先转文字再处理，AI可以一边听你说话，一边推理、一边翻译、一边查询数据库——所有这些任务可以并行进行。

语音AI架构演进

三个模型各司其职

🧠 推理模型 — 「边听边想」

传统语音AI需要等你把话说完才开始「思考」。推理模型可以在你说话的同时就开始推理，甚至在你说完之前就准备好答案。

🌐 翻译模型 — 「你说中文，对方听英文」

实时跨语言翻译，不再需要「等对方说完再翻译」。双方可以同时说话，AI同步翻译，真正实现无缝多语种对话。

📝 转录模型 — 「每个字都不落下」

高精度语音转文字，专业术语、行业行话也能准确识别。可以同时为多人转录，区分不同说话人。

关键突破：语音智能体可以执行操作

三个模型最核心的共同能力是：在语音对话中直接调用工具执行操作。

以前的语音助手最多帮你「查个天气」「设个闹钟」。新一代语音智能体可以在对话中直接执行复杂操作——帮你订机票、处理退款、修改数据库记录、调用API完成业务流程。

语音智能体 vs 语音助手

影响与展望

语音一直是人机交互最自然的入口。当语音不再只是「输入方式」，而是「执行方式」，整个AI应用的形态都会随之改变。语音智能体时代，已经来了。

原文来源： IT之家 | 财新网