无需api,Molili语音视频转录文字教程

通过在本地配置openai whisper技能,用户可以直接利用Molili调用 Whisper 模型,在本地完成多格式音频的转录与翻译。该处理过程无需调用外部API,保障了数据隐私。以下是关于Molili本地语音转文字技能的配置与实测说明。

一、安装与配置方法

方法1:通过指令自动安装

直接在对话框给Molili发送安装指令:

帮我安装 openai whisper这个技能https://clawhub.ai/steipete/openai-whisper

方法2:本地手动安装(会折腾的话)
在终端执行以下命令,将技能拉取至本地目录:

cd ~/.openclaw/skills/
git clone https://github.com/L-LesterYu/OpenClaw-hot-skills-zh.git temp-repo
cp -r temp-repo/skills/openai-whisper-zh ./
rm -rf temp-repo

(注:重启Molili即可生效。首次运行该技能时,系统会自动下载语音模型至本地缓存,需预留相应的磁盘空间)

二、功能实测与常用指令

配置完成后,可以直接将音频文件路径发送给Molili执行转录。模型分为 tiny到 large多个级别,建议日常使用平衡速度与准确性的 medium 或 turbo 模型。

1. 常规音频转录为文本:

请使用medium模型,将这份 meeting.mp3 会议录音转录为txt文本

2. 生成视频字幕文件:

将本地的 video.m4a 音频提取并生成srt格式的字幕文件

3. 外语音频直接翻译:

请将这段 eng.mp3 外语音频转录并翻译为中文,输出srt格式

该方案完全基于本地算力执行,避免了录音文件上传云端的过程,适用于对隐私要求较高的会议记录梳理、视频字幕生成及外语音频翻译等场景。完成环境配置后即可在Molili中投入使用。

会议记录神器

语音转文字不用api太好了

不用API就能转录?这个太香了,之前光是语音转文字API费用就一大笔

Molili的语音转录准确率怎么样?特别是有方言口音的情况

视频转录支持多大的文件?我有几个两小时的会议录像想转

免API方案的原理是什么?是用的本地Whisper模型吗?

@tpzen Whisper对普通话准确率很高 大概95%以上 方言口音会掉到70-80% 可以用medium或large模型提升准确率 但推理速度会变慢

@flgeo 两小时的视频文件没问题 但建议先切分成小段再转录 一次性喂太大的文件容易内存不够 ffmpeg可以按时间切割