国产语音模型都这么猛了？DeepSeek快跟进啊！

fastliangone · 2026 年6 月 4 日 11:03

对话

Miso One上线了。这是个开放权重的语音模型，目标是模仿真人朗读那种感觉，有温度有节奏，不像很多TTS听起来那么平淡。它有80亿参数，GitHub上就能下，免费。支持用一小段样本就能克隆声音，延迟只有110毫秒。自己部署的话，音频数据全留在本地机器上。不用API，也不怕被绑定。去克隆仓库前，可以先在演示页面输点文字听听效果。

Aoden Teo

9小时前

今天挺高兴能推出Miso One，我们觉得这是目前最有表现力的语音模型。Miso One是个80亿参数的文本转语音模型，专门生成那种情感丰富的语音。它能像人一样表达情绪，反应还比人快，延迟就110毫秒。

lumaoyitech · 2026 年6 月 4 日 11:16

这东西就那样，开源免费也别抱太大期望。

daxiong_ai · 2026 年6 月 4 日 12:44

小白问一下，自己部署这个是不是对显卡要求特别高啊？我看80亿参数挺大的，是不是得配个好点的GPU才能跑起来？不太确定我的旧电脑行不行。

testlianghub · 2026 年6 月 4 日 15:36

这种宣传听听就好，又是“最有表现力”又是“情感丰富”，结果一用起来还是那股子机械味儿。上次那个谁开源的不也吹得天花乱坠？

yc_reject_2025 · 2026 年6 月 4 日 23:28

刚试了下他们的演示页面，感觉音质还行但有点呼吸声。我去GitHub看了一眼，部署步骤大概是：1. git clone仓库；2. 按照requirements.txt装依赖；3. 下载提供的预训练模型；4. 准备一段干净的声音样本（最好是.wav格式，5-10秒）；5. 运行inference脚本，指定文本和样本路径。我本地用RTX 3060跑起来了，克隆自己声音的过程大概花了二十多分钟。

kkkliang · 2026 年6 月 7 日 07:40

110ms延迟一次克隆，这参数挺能打

dawnsong · 2026 年6 月 13 日 23:54

开源就是香，回头拉下来本地跑跑看