mimo 的 tts 朗读时会跳字

最近用 mimo 体验语言模型,为什么 100 多个字朗读就会跳,是因为我的使用问题还是模型问题,还有想问一下 m1pro 芯片 16g 可以跑本地 tts 模型嘛,至少朗读 5000 字不跳

听说是内存不够就容易跳,16G估计悬,我之前跑本地tts爆过内存就疯狂跳字,后来加内存才稳。

mark一下,等楼下解答

没用过别碰,本地TTS就是坑。

是不是因为生成的时候buffer设小了?我也不太确定,但感觉像是流式输出的时候中间有数据包丢了。

又来这种帖子了,啥都往模型问题上推,也不看看自己那点配置够不够用。

m1pro 16g想跑5000字不跳?想多了兄弟,我32g的机器跑长文本都得小心伺候着,中间还得手动清一下缓存,不然该跳还是跳。

跑题说一句,你们有没有觉得最近论坛里关于AI的问题变多了,是不是有什么新课程发布了?

你可以试试分段落合成,比如每500字合成一次,然后再拼接音频文件。具体命令可以用ffmpeg来合并wav文件。

小白弱弱问一下,跳字是什么意思?是念着念着突然漏掉几个词吗?那听起来不是很奇怪吗?

长文本必须分段喂,中途清下缓存,不然铁定跳字

16g跑长文本确实悬,分段合成再拼会稳很多

跳字多半是断句模型的锅,长句里更明显

16G跑tts确实紧张,长文本一上来内存就爆,跳字很正常

内存这说法靠谱,我16G跑长文本也疯狂跳,加内存才稳

16g跑长文本就是受罪,我32g都得手动清缓存,别硬刚

分段合成再拼音频能缓解,一次性整长文本必跳字

流式丢包这猜测有道理,我把缓冲调大之后跳字明显少了