DC娱乐网

OpenAI发布实时语音模型,语音Agent进入执行层对开发者和 AI 产品经理

OpenAI发布实时语音模型,语音Agent进入执行层

对开发者和 AI 产品经理来说,这条最直接的变化在入口。语音不再只是聊天方式,而是在变成可以推理、翻译、转写和调用工具的实时工作界面。

OpenAI 官方博客显示,公司在 2026 年 5 月 7 日发布三款 API 音频模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。其中 GPT-Realtime-2 支持 GPT-5 级推理、并行工具调用、128K 上下文和可调 reasoning effort;实时翻译支持 70+ 输入语言、13 种输出语言;实时转写可以在说话过程中流式输出。价格也同步披露:GPT-Realtime-2 为 每百万音频输入 token 32 美元、输出 token 64 美元,Translate 为 每分钟 0.034 美元,Whisper 为 每分钟 0.017 美元。

这会影响做客服、旅行、房产、会议、教育和跨境业务的团队。过去语音 AI 的核心卖点是“像人说话”,现在变量变成“能不能边听边做事”。小趋势是语音接口从单点问答转向工作流控制,接下来要看国内模型厂商和云 API 是否跟进实时语音价格,以及企业客户是否愿意把电话、客服和会议入口交给 Agent。