通过在本地配置openai whisper技能,用户可以直接利用Molili调用 Whisper 模型,在本地完成多格式音频的转录与翻译。该处理过程无需调用外部API,保障了数据隐私。以下是关于Molili本地语音转文字技能的配置与实测说明。
一、安装与配置方法
方法1:通过指令自动安装
直接在对话框给Molili发送安装指令:
帮我安装 openai whisper这个技能https://clawhub.ai/steipete/openai-whisper
方法2:本地手动安装(会折腾的话)
在终端执行以下命令,将技能拉取至本地目录:
cd ~/.openclaw/skills/
git clone https://github.com/L-LesterYu/OpenClaw-hot-skills-zh.git temp-repo
cp -r temp-repo/skills/openai-whisper-zh ./
rm -rf temp-repo
(注:重启Molili即可生效。首次运行该技能时,系统会自动下载语音模型至本地缓存,需预留相应的磁盘空间)
二、功能实测与常用指令
配置完成后,可以直接将音频文件路径发送给Molili执行转录。模型分为 tiny到 large多个级别,建议日常使用平衡速度与准确性的 medium 或 turbo 模型。
1. 常规音频转录为文本:
请使用medium模型,将这份 meeting.mp3 会议录音转录为txt文本
2. 生成视频字幕文件:
将本地的 video.m4a 音频提取并生成srt格式的字幕文件
3. 外语音频直接翻译:
请将这段 eng.mp3 外语音频转录并翻译为中文,输出srt格式
该方案完全基于本地算力执行,避免了录音文件上传云端的过程,适用于对隐私要求较高的会议记录梳理、视频字幕生成及外语音频翻译等场景。完成环境配置后即可在Molili中投入使用。
