OpenAI 发布语音 AI 新模型,实时翻译、转写、对话全面升级


5 月 7 日,OpenAI 一口气发布了三款全新语音 AI 模型,面向开发者正式开放 API 接入。这次不是小修小补,而是从底层推理能力到实时翻译、流式转写的全面升级。对用户来说,这意味着你和 AI 说话,它真的能"听懂"、能"做事"、能跨越语言壁垒——语音,正式成为人和软件之间最自然的那扇门。
GPT-Realtime-2 是这次的核心,也是 OpenAI 第一款搭载 GPT-5 级别推理能力的实时语音模型。它不只是"听你说话再回答",还能在对话中调用工具、完成任务,真正理解你的意图。

GPT-Realtime-Translate 则主攻语言壁垒,支持 70 多种语言输入、13 种语言输出,你说中文,对方听到的是英语;对方说西班牙语,你接收到的是流畅的中文——这种"同声传译"能力,以往只有专业译员才能做到。
GPT-Realtime-Whisper 专注于低延迟转写,话音未落,文字已经出现在屏幕上,字幕和会议记录从此不再滞后。
如果说前几代语音模型是"快速问答机",GPT-Realtime-2 更像一个能边思考边行动的语音助手。它新增了预热话术功能——当用户提了一个需要时间处理的请求时,模型会先说一句"我来帮您查一下",而不是沉默地卡住,这个小细节让交互体验一下子自然了很多。
更实用的是并行工具调用,模型可以同时调用多个工具,比如一边说"正在查您的日历",一边同步检索航班信息,效率大幅提升。上下文窗口也从 32K 扩展到了 128K,能支撑更长的对话和更复杂的任务流程。
开发者还可以自由调节模型的"思考强度",从最低到最高分五档,在反应速度和推理深度之间找到最佳平衡。效果怎么样?房产平台 Zillow 的 AI 团队测试发现,用 GPT-Realtime-2 构建的语音助手,在最严苛的对抗性测试中通话成功率从 69% 跳升到 95%,提升了整整 26 个百分点。
GPT-Realtime-Translate 的难点在于能不能处理真实口语。现实中人们说话并不像课本那样标准,有口音、有停顿、有地方词汇,这款模型针对这些挑战做了专门优化。印度语音 AI 公司 BolnaAI 测试发现,该模型在印地语、泰米尔语、泰卢固语上的词错率比其他模型低了 12.5%,任务完成率更高,延迟也更低。
视频平台 Vimeo 也在测试将它用于产品教学视频的实时翻译,让全球用户无需等待另行制作的配音版本,直接用母语听懂内容。电信巨头德国电信则将其引入多语言客服场景,让客户用最顺口的语言说话,AI 在中间实时传译。

通过这三款模型,可以看到 OpenAI 描绘出了语音 AI 的三种核心应用图景。
第一种是语音驱动行动——用户说出需求,AI 理解并执行,比如告诉助手"帮我找符合预算、不临街的房子,周六能安排看房",AI 不再停留于搜索,其能进一步推理、筛选、预约,一气呵成。
第二种是系统主动播报——AI 根据实时信息,主动告知用户关键事项,比如在你赶飞机途中,它提前说:"您的转机延误了,但还来得及,最快路线已规划好,行李也会自动转运。"
第三种是跨语言实时对话,两个人说不同语言,AI 在中间无缝传译,让沟通真正跨越语言边界。

声音,是人类最自然的表达方式。AI 正在让它变得更聪明,也更好用。也许不久之后,我们和软件打交道的方式,将彻底告别那块小小的键盘。
✦ 最新活动 ✦

✦ 精选服务 ✦
「新探计划」由有新 Newin 联合探奇资本发起,我们关注 AI 大浪潮中持续解决真实问题的创业团队,为优质项目匹配合适的创业资源,不限于融资、宣传、产品设计以及商业化探索等。

✦ 精选内容 ✦
后键盘时代,SpeakON 们想要抢回被打字偷走的生产力
前字节产品高管拿到数千万元 Pre-Seed 轮融资,锦秋、百度风投押注 Life Agent
部署一批 7×24 小时在线,自主写代码、做报告的 AI 同事
Agent 终于有了自己的社交网络——FloatlM 发布
让 Kimi K2.6 当了一天打工人,它交了三份作业


