OpenAI 发布语音 AI 新模型，实时翻译、转写、对话全面升级

发布时间：2026-05-08来源：有新Newin

5 月 7 日，OpenAI 一口气发布了三款全新语音 AI 模型，面向开发者正式开放 API 接入。这次不是小修小补，而是从底层推理能力到实时翻译、流式转写的全面升级。对用户来说，这意味着你和 AI 说话，它真的能"听懂"、能"做事"、能跨越语言壁垒——语音，正式成为人和软件之间最自然的那扇门。

GPT-Realtime-2 是这次的核心，也是 OpenAI 第一款搭载 GPT-5 级别推理能力的实时语音模型。它不只是"听你说话再回答"，还能在对话中调用工具、完成任务，真正理解你的意图。

GPT-Realtime-Translate 则主攻语言壁垒，支持 70 多种语言输入、13 种语言输出，你说中文，对方听到的是英语；对方说西班牙语，你接收到的是流畅的中文——这种"同声传译"能力，以往只有专业译员才能做到。

GPT-Realtime-Whisper 专注于低延迟转写，话音未落，文字已经出现在屏幕上，字幕和会议记录从此不再滞后。

如果说前几代语音模型是"快速问答机"，GPT-Realtime-2 更像一个能边思考边行动的语音助手。它新增了预热话术功能——当用户提了一个需要时间处理的请求时，模型会先说一句"我来帮您查一下"，而不是沉默地卡住，这个小细节让交互体验一下子自然了很多。

更实用的是并行工具调用，模型可以同时调用多个工具，比如一边说"正在查您的日历"，一边同步检索航班信息，效率大幅提升。上下文窗口也从 32K 扩展到了 128K，能支撑更长的对话和更复杂的任务流程。

开发者还可以自由调节模型的"思考强度"，从最低到最高分五档，在反应速度和推理深度之间找到最佳平衡。效果怎么样？房产平台 Zillow 的 AI 团队测试发现，用 GPT-Realtime-2 构建的语音助手，在最严苛的对抗性测试中通话成功率从 69% 跳升到 95%，提升了整整 26 个百分点。

GPT-Realtime-Translate 的难点在于能不能处理真实口语。现实中人们说话并不像课本那样标准，有口音、有停顿、有地方词汇，这款模型针对这些挑战做了专门优化。印度语音 AI 公司 BolnaAI 测试发现，该模型在印地语、泰米尔语、泰卢固语上的词错率比其他模型低了 12.5%，任务完成率更高，延迟也更低。

视频平台 Vimeo 也在测试将它用于产品教学视频的实时翻译，让全球用户无需等待另行制作的配音版本，直接用母语听懂内容。电信巨头德国电信则将其引入多语言客服场景，让客户用最顺口的语言说话，AI 在中间实时传译。

通过这三款模型，可以看到 OpenAI 描绘出了语音 AI 的三种核心应用图景。

第一种是语音驱动行动——用户说出需求，AI 理解并执行，比如告诉助手"帮我找符合预算、不临街的房子，周六能安排看房"，AI 不再停留于搜索，其能进一步推理、筛选、预约，一气呵成。

第二种是系统主动播报——AI 根据实时信息，主动告知用户关键事项，比如在你赶飞机途中，它提前说："您的转机延误了，但还来得及，最快路线已规划好，行李也会自动转运。"

第三种是跨语言实时对话，两个人说不同语言，AI 在中间无缝传译，让沟通真正跨越语言边界。

声音，是人类最自然的表达方式。AI 正在让它变得更聪明，也更好用。也许不久之后，我们和软件打交道的方式，将彻底告别那块小小的键盘。

✦ 最新活动 ✦

✦ 精选服务 ✦

「新探计划」由有新 Newin 联合探奇资本发起，我们关注 AI 大浪潮中持续解决真实问题的创业团队，为优质项目匹配合适的创业资源，不限于融资、宣传、产品设计以及商业化探索等。

✦ 精选内容 ✦

后键盘时代，SpeakON 们想要抢回被打字偷走的生产力

前字节产品高管拿到数千万元 Pre-Seed 轮融资，锦秋、百度风投押注 Life Agent

部署一批 7×24 小时在线，自主写代码、做报告的 AI 同事

Agent 终于有了自己的社交网络——FloatlM 发布

让 Kimi K2.6 当了一天打工人，它交了三份作业

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。