OpenAI给API加了新语音智能功能

OpenAI周四说,他们的API现在加入了一堆新的语音智能功能,方便开发者搞能对话、转录和翻译的app。

新的GPT-Realtime-2是另一个语音模型,用来生成逼真的语音模拟,能和用户对话。但和之前的GPT-Realtime-1.5不一样,这个用了GPT-5级别的推理能力,OpenAI说这是为了处理用户更复杂的请求。

他们还发布了GPT-Realtime-Translate,顾名思义就是搞实时翻译的,能“跟上”用户的对话节奏。这功能支持超过70种输入语言(就是它能听懂的)和13种输出语言(就是它能说的)。

最后,还有个新的转录功能GPT-Realtime-Whisper,能实时把语音转成文字。

OpenAI说这些模型一起,把实时音频从简单的问答变成了真正能干活儿的语音界面:听、推理、翻译、转录,在对话过程中就能行动。

这些更新对谁有用?想扩展客服能力的公司肯定是个目标。但OpenAI也提到,这些新功能在教育、媒体、活动和创作者平台等一大堆领域都有用。

虽然从企业角度看这些工具挺有用,但被滥用的可能性也存在。公司说他们已经加了护栏,防止新功能被用来搞垃圾信息、诈骗或其他网络滥用。系统里嵌入了一些触发机制,这样“如果检测到对话违反我们的有害内容准则,可以中断对话”。

所有新语音模型都包含在OpenAI的Realtime API里。Translate和Whisper按分钟计费,GPT-Realtime-2按token消耗计费。

Image 1 Image 2 Image 6: TechCrunch Logo Image 7

这东西就那样,噱头大于实际。

小白问一下,这个GPT-Realtime-2跟之前的1.5差别真那么大吗?是不是得调用特别复杂?我不太确定现在国内网络环境用这个API会不会有延迟啊?

哇,实时翻译支持70多种语言输入,那像一些小语种或者带口音的英语,它的识别准确率具体能达到多少?有没有已经测试过的朋友来说说看,比如在嘈杂环境下的表现?

我们团队上个月正好在评估语音交互方案,试过之前的版本。说实话,实时对话的延迟和上下文理解一直是个坎。看描述这次用了GPT-5级别的推理,如果真能在多轮对话里准确抓住用户意图,那做智能客服或者虚拟陪伴类应用会省力很多。不过费用按token算,对于长对话场景成本得仔细估量,先申请个额度试试水吧。

楼主发的这个配图是啥?好像跟内容没啥关系,是TechCrunch的网站截图吗?不过OpenAI最近动作确实挺多的。

差别挺大的,延迟比1.5低一半

我们之前测过延迟稳定在400ms算很难得但识别还是会丢字

小语种和带口音的英语识别准确率历来都掉得厉害,70种语言只是覆盖不是质量

语音模型这块真是卷起来了