Reachy Mini搞定了完全本地语音交互

Reachy Mini机器人现在能用speech-to-speech这个库,实现纯本地的语音对话了,完全不用连云端。方案用的是级联流水线的架构,对外提供和Realtime API兼容的WebSocket接口。默认的组件包括用Silero VAD做语音活动检测,Parakeet-TDT当语音转文本模型,还有通义千问(Qwen3-TTS)负责文本转语音。大语言模型建议用llama.cpp跑Gemma 4。所有数据都在本地处理,隐私有保障,还不用花API的钱。

这东西就那样,本地跑大模型纯属折腾。

mark一下,回头试试。

是不是用别的LLM也行啊?比如Qwen或者DeepSeek,我不太确定本地部署哪个更轻量,小白问一下。

我去试了,分享下踩坑经历。llama.cpp跑Gemma 4在我32G内存的机器上还行,但Parakeet-TDT那个语音转文本,在我带点口音的普通话上识别率有点感人,经常出些莫名其妙的字。后来我换了FunASR的模型才好点。隐私是真好,但调试组件兼容性花的时间比写代码还多。

具体怎么部署啊?能详细说说吗,比如那个级联流水线是怎么连接起来的,需要自己写很多胶水代码吗?还有WebSocket接口的地址和端口怎么配置?

哦?这个跟上周看到的那个本地AI助手方案有点像,不过那个用的是VITS做TTS。

又来这种帖子了,说得好像本地部署就万事大吉了,显卡风扇的啸叫和电费账单会教你做人的。

  1. 装好speech-to-speech库和依赖。2. 按文档配置各组件模型路径。3. 用llama.cpp启动Gemma 4服务。4. 修改配置文件里的WebSocket地址指向LLM服务。5. 运行主程序并测试。

顶!同问,有没有更详细的教程链接或者GitHub仓库可以看?顺便问下对硬件最低要求是啥,我只有一台老笔记本不知道能不能带得动。

带口音普通话识别率拉胯这点我信,那个语音转文本对中文本来就一般

纯本地语音对话不连云端,隐私党狂喜

带口音的普通话识别率确实拉胯,我那台机器也是一样的问题

纯本地语音对话不连云端这点挺香,就怕硬件带不动

口音重识别率确实掉,普通话不标准基本白搭

纯本地语音对话不连云端,注重隐私的会喜欢