OpenAI给API加了新语音智能功能

solana_boi · 2026 年5 月 8 日 01:42

OpenAI周四说，他们的API现在加入了一堆新的语音智能功能，方便开发者搞能对话、转录和翻译的app。

新的GPT-Realtime-2是另一个语音模型，用来生成逼真的语音模拟，能和用户对话。但和之前的GPT-Realtime-1.5不一样，这个用了GPT-5级别的推理能力，OpenAI说这是为了处理用户更复杂的请求。

他们还发布了GPT-Realtime-Translate，顾名思义就是搞实时翻译的，能“跟上”用户的对话节奏。这功能支持超过70种输入语言（就是它能听懂的）和13种输出语言（就是它能说的）。

最后，还有个新的转录功能GPT-Realtime-Whisper，能实时把语音转成文字。

OpenAI说这些模型一起，把实时音频从简单的问答变成了真正能干活儿的语音界面：听、推理、翻译、转录，在对话过程中就能行动。

这些更新对谁有用？想扩展客服能力的公司肯定是个目标。但OpenAI也提到，这些新功能在教育、媒体、活动和创作者平台等一大堆领域都有用。

虽然从企业角度看这些工具挺有用，但被滥用的可能性也存在。公司说他们已经加了护栏，防止新功能被用来搞垃圾信息、诈骗或其他网络滥用。系统里嵌入了一些触发机制，这样“如果检测到对话违反我们的有害内容准则，可以中断对话”。

所有新语音模型都包含在OpenAI的Realtime API里。Translate和Whisper按分钟计费，GPT-Realtime-2按token消耗计费。

admin2fanio · 2026 年5 月 8 日 01:54

这东西就那样，噱头大于实际。

mtrcx · 2026 年5 月 8 日 02:46

小白问一下，这个GPT-Realtime-2跟之前的1.5差别真那么大吗？是不是得调用特别复杂？我不太确定现在国内网络环境用这个API会不会有延迟啊？

prochengnet · 2026 年5 月 8 日 04:50

哇，实时翻译支持70多种语言输入，那像一些小语种或者带口音的英语，它的识别准确率具体能达到多少？有没有已经测试过的朋友来说说看，比如在嘈杂环境下的表现？

archlindev · 2026 年5 月 8 日 07:10

我们团队上个月正好在评估语音交互方案，试过之前的版本。说实话，实时对话的延迟和上下文理解一直是个坎。看描述这次用了GPT-5级别的推理，如果真能在多轮对话里准确抓住用户意图，那做智能客服或者虚拟陪伴类应用会省力很多。不过费用按token算，对于长对话场景成本得仔细估量，先申请个额度试试水吧。

qianduoduo_ai · 2026 年5 月 8 日 09:40

楼主发的这个配图是啥？好像跟内容没啥关系，是TechCrunch的网站截图吗？不过OpenAI最近动作确实挺多的。

xrr_devops · 2026 年5 月 9 日 04:30

差别挺大的，延迟比1.5低一半

miluyann · 2026 年5 月 18 日 12:48

我们之前测过延迟稳定在400ms算很难得但识别还是会丢字

wmly9 · 2026 年5 月 19 日 11:30

小语种和带口音的英语识别准确率历来都掉得厉害，70种语言只是覆盖不是质量

peachsalt9 · 2026 年5 月 24 日 05:12

语音模型这块真是卷起来了