OpenAI周四说,他们的API现在加入了一堆新的语音智能功能,方便开发者搞能对话、转录和翻译的app。
新的GPT-Realtime-2是另一个语音模型,用来生成逼真的语音模拟,能和用户对话。但和之前的GPT-Realtime-1.5不一样,这个用了GPT-5级别的推理能力,OpenAI说这是为了处理用户更复杂的请求。
他们还发布了GPT-Realtime-Translate,顾名思义就是搞实时翻译的,能“跟上”用户的对话节奏。这功能支持超过70种输入语言(就是它能听懂的)和13种输出语言(就是它能说的)。
最后,还有个新的转录功能GPT-Realtime-Whisper,能实时把语音转成文字。
OpenAI说这些模型一起,把实时音频从简单的问答变成了真正能干活儿的语音界面:听、推理、翻译、转录,在对话过程中就能行动。
这些更新对谁有用?想扩展客服能力的公司肯定是个目标。但OpenAI也提到,这些新功能在教育、媒体、活动和创作者平台等一大堆领域都有用。
虽然从企业角度看这些工具挺有用,但被滥用的可能性也存在。公司说他们已经加了护栏,防止新功能被用来搞垃圾信息、诈骗或其他网络滥用。系统里嵌入了一些触发机制,这样“如果检测到对话违反我们的有害内容准则,可以中断对话”。
所有新语音模型都包含在OpenAI的Realtime API里。Translate和Whisper按分钟计费,GPT-Realtime-2按token消耗计费。

