OpenAI发布实时语音模型，语音Agent进入执行层对开发者和 AI 产品经理

OpenAI发布实时语音模型，语音Agent进入执行层

对开发者和 AI 产品经理来说，这条最直接的变化在入口。语音不再只是聊天方式，而是在变成可以推理、翻译、转写和调用工具的实时工作界面。

OpenAI 官方博客显示，公司在 2026 年 5 月 7 日发布三款 API 音频模型：GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。其中 GPT-Realtime-2 支持 GPT-5 级推理、并行工具调用、128K 上下文和可调 reasoning effort；实时翻译支持 70+ 输入语言、13 种输出语言；实时转写可以在说话过程中流式输出。价格也同步披露：GPT-Realtime-2 为每百万音频输入 token 32 美元、输出 token 64 美元，Translate 为每分钟 0.034 美元，Whisper 为每分钟 0.017 美元。

这会影响做客服、旅行、房产、会议、教育和跨境业务的团队。过去语音 AI 的核心卖点是“像人说话”，现在变量变成“能不能边听边做事”。小趋势是语音接口从单点问答转向工作流控制，接下来要看国内模型厂商和云 API 是否跟进实时语音价格，以及企业客户是否愿意把电话、客服和会议入口交给 Agent。

DC娱乐网

OpenAI发布实时语音模型，语音Agent进入执行层对开发者和 AI 产品经理

热门分类