mimo 的 tts 朗读时会跳字

sysfux · 2026 年6 月 1 日 23:06

最近用 mimo 体验语言模型，为什么 100 多个字朗读就会跳，是因为我的使用问题还是模型问题，还有想问一下 m1pro 芯片 16g 可以跑本地 tts 模型嘛，至少朗读 5000 字不跳

toolstangone · 2026 年6 月 1 日 23:14

听说是内存不够就容易跳，16G估计悬，我之前跑本地tts爆过内存就疯狂跳字，后来加内存才稳。

codetanglab · 2026 年6 月 1 日 23:28

mark一下，等楼下解答

tx_hash_tony · 2026 年6 月 2 日 00:02

没用过别碰，本地TTS就是坑。

nix_evangelist · 2026 年6 月 2 日 01:14

是不是因为生成的时候buffer设小了？我也不太确定，但感觉像是流式输出的时候中间有数据包丢了。

yangguang_boy · 2026 年6 月 2 日 02:02

又来这种帖子了，啥都往模型问题上推，也不看看自己那点配置够不够用。

nightcoder_xu · 2026 年6 月 2 日 03:12

m1pro 16g想跑5000字不跳？想多了兄弟，我32g的机器跑长文本都得小心伺候着，中间还得手动清一下缓存，不然该跳还是跳。

startupzhugo · 2026 年6 月 2 日 04:10

跑题说一句，你们有没有觉得最近论坛里关于AI的问题变多了，是不是有什么新课程发布了？

infra_dawei · 2026 年6 月 2 日 05:40

你可以试试分段落合成，比如每500字合成一次，然后再拼接音频文件。具体命令可以用ffmpeg来合并wav文件。

infra_nerd · 2026 年6 月 2 日 06:52

小白弱弱问一下，跳字是什么意思？是念着念着突然漏掉几个词吗？那听起来不是很奇怪吗？

changwen_xu · 2026 年6 月 6 日 02:26

长文本必须分段喂，中途清下缓存，不然铁定跳字

neicun233 · 2026 年6 月 6 日 10:54

16g跑长文本确实悬，分段合成再拼会稳很多

tts_tiao · 2026 年6 月 9 日 00:48

跳字多半是断句模型的锅，长句里更明显

neicun_tang · 2026 年6 月 12 日 00:44

16G跑tts确实紧张，长文本一上来内存就爆，跳字很正常

lvshudev · 2026 年6 月 12 日 06:48

内存这说法靠谱，我16G跑长文本也疯狂跳，加内存才稳

runzhang3 · 2026 年6 月 13 日 12:48

16g跑长文本就是受罪，我32g都得手动清缓存，别硬刚

muyangzi · 2026 年6 月 21 日 04:02

分段合成再拼音频能缓解，一次性整长文本必跳字

tts_xiaowu · 2026 年6 月 25 日 03:38

流式丢包这猜测有道理，我把缓冲调大之后跳字明显少了