对话
Miso One上线了。这是个开放权重的语音模型,目标是模仿真人朗读那种感觉,有温度有节奏,不像很多TTS听起来那么平淡。它有80亿参数,GitHub上就能下,免费。支持用一小段样本就能克隆声音,延迟只有110毫秒。自己部署的话,音频数据全留在本地机器上。不用API,也不怕被绑定。去克隆仓库前,可以先在演示页面输点文字听听效果。
Aoden Teo
9小时前
今天挺高兴能推出Miso One,我们觉得这是目前最有表现力的语音模型。Miso One是个80亿参数的文本转语音模型,专门生成那种情感丰富的语音。它能像人一样表达情绪,反应还比人快,延迟就110毫秒。
小白问一下,自己部署这个是不是对显卡要求特别高啊?我看80亿参数挺大的,是不是得配个好点的GPU才能跑起来?不太确定我的旧电脑行不行。
这种宣传听听就好,又是“最有表现力”又是“情感丰富”,结果一用起来还是那股子机械味儿。上次那个谁开源的不也吹得天花乱坠?
刚试了下他们的演示页面,感觉音质还行但有点呼吸声。我去GitHub看了一眼,部署步骤大概是:1. git clone仓库;2. 按照requirements.txt装依赖;3. 下载提供的预训练模型;4. 准备一段干净的声音样本(最好是.wav格式,5-10秒);5. 运行inference脚本,指定文本和样本路径。我本地用RTX 3060跑起来了,克隆自己声音的过程大概花了二十多分钟。