新闻产品发布

OpenAI发布三款实时语音模型,语音智能体时代正式开启

📅 2026年5月9日📰 IT之家 / 财新网⏱️ 阅读时间 9 分钟

🎙️ 语音AI不再是「一问一答」了。OpenAI于5月8日推出三款实时语音模型——GPT-Realtime-2领衔,分别专注于推理、翻译和转录。新一代语音智能体可以在对话中同步完成倾听、思考、翻译、执行工具调用——语音交互正式进入多任务并行时代。

三款实时语音模型一览

  • 🧠 推理模型:实时语音推理,边听边想,逻辑链更复杂
  • 🌐 翻译模型:实时跨语言翻译,支持多语种无缝切换
  • 📝 转录模型:实时语音转文字,高精度识别专业术语
  • 🔧 共同能力:调用工具、执行动作、多任务并行
  • 🚀 集成方式:通过Realtime API供开发者调用
从语音助手到语音智能体的质变

以前的语音AI,本质上是一个「语音转文字 → 处理 → 文字转语音」的串行管道。你说一句,它答一句。中间有延迟,任务只能一个个来。

OpenAI这次推出的模型,直接在语音层面处理信息。不再需要先转文字再处理,AI可以一边听你说话,一边推理、一边翻译、一边查询数据库——所有这些任务可以并行进行。

语音AI架构演进
旧模式:串行管道🗣️ 语音输入📝 转文字🧠 处理🔊 输出延迟高 | 串行 | 单任务新模式:并行智能体🗣️ 语音输入↕ 实时双向🧠推理🌐翻译📝转录🔧工具并行同步执行GPT-Realtime-2 核心优势⚡ 延迟大幅降低🔄 多任务并行🔧 可调用外部工具🌐 实时跨语言
三个模型各司其职

🧠 推理模型 — 「边听边想」

传统语音AI需要等你把话说完才开始「思考」。推理模型可以在你说话的同时就开始推理,甚至在你说完之前就准备好答案。

  • • 支持多步推理链,处理复杂逻辑问题
  • • 可在对话中实时调用搜索、数据库等工具
  • • 适合客服、技术支持、专业咨询场景

🌐 翻译模型 — 「你说中文,对方听英文」

实时跨语言翻译,不再需要「等对方说完再翻译」。双方可以同时说话,AI同步翻译,真正实现无缝多语种对话。

  • • 支持中、英、日、韩、法、德等主流语种
  • • 保留语气、情感和文化语境
  • • 适合国际会议、跨国团队协作场景

📝 转录模型 — 「每个字都不落下」

高精度语音转文字,专业术语、行业行话也能准确识别。可以同时为多人转录,区分不同说话人。

  • • 支持专业领域术语(医疗、法律、金融等)
  • • 多人对话自动区分说话人
  • • 适合会议记录、医疗问诊、法律庭审场景
关键突破:语音智能体可以执行操作

三个模型最核心的共同能力是:在语音对话中直接调用工具执行操作

以前的语音助手最多帮你「查个天气」「设个闹钟」。新一代语音智能体可以在对话中直接执行复杂操作——帮你订机票、处理退款、修改数据库记录、调用API完成业务流程。

语音智能体 vs 语音助手
语音助手🗣️ 「今天天气怎样?」🔊 「北京,晴,25度」单轮问答 | 被动响应无法执行复杂操作语音智能体🗣️ 「帮我改明天的航班」🔧 查航班→改签→确认多轮对话 | 主动执行可调用工具完成复杂操作从「被动响应」到「主动执行」的质变
影响与展望
  1. 1. 客服行业将被重塑

    语音智能体可以在通话中直接处理退款、修改订单、查询物流——不再需要转人工。

  2. 2. 实时翻译打破语言壁垒

    跨国团队的日常协作、国际商务谈判,将不再受限于语言差异。

  3. 3. 无障碍服务升级

    视障人士、行动不便者,将拥有一个真正能「代劳」的语音伙伴。

  4. 4. 开发者生态扩张

    通过Realtime API,开发者可以将语音能力集成到自己的应用中,催生大量新场景。

语音一直是人机交互最自然的入口。当语音不再只是「输入方式」,而是「执行方式」,整个AI应用的形态都会随之改变。语音智能体时代,已经来了。

原文来源: IT之家 | 财新网