不想用云端API(公司数据不能出内网),想用本地大模型。听说Ollama可以跑Qwen,怎么跟OpenClaw配合?
显卡是RTX 4070,12G显存。
不想用云端API(公司数据不能出内网),想用本地大模型。听说Ollama可以跑Qwen,怎么跟OpenClaw配合?
显卡是RTX 4070,12G显存。
4070跑Qwen2.5-7B完全没问题,速度很快。Ollama+OpenClaw配合使用是最常见的本地方案。
完整配置步骤:
1. 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
2. 下载Qwen模型
ollama pull qwen2.5:7b # 基础版,4G显存够
ollama pull qwen2.5:14b # 增强版,8G显存
ollama pull qwen2.5-coder:7b # 写代码专用
3. 配置OpenClaw
修改配置文件:
model: qwen2.5:7b
api_base: http://localhost:11434/v1
api_key: ollama # Ollama不需要Key,随便填
4. 验证
启动OpenClaw,试一个任务。如果能正常响应就说明连接成功。
你的4070-12G可以直接上14b模型,效果比7b好很多。
模型选择建议:
| 显存 | 推荐模型 | 效果 |
|---|---|---|
| 4G | qwen2.5:3b | 基本够用 |
| 6G | qwen2.5:7b | 日常任务 |
| 8G | qwen2.5:7b-q8 | 质量更好 |
| 12G | qwen2.5:14b | 接近云端 |
| 24G | qwen2.5:32b | 非常强 |
没有显卡也能跑CPU推理,只是速度慢很多(大约每秒5-10个token vs GPU的30-50个)。
本地模型的一个坑:中文支持。有些模型(比如Llama系列)中文能力不太行,建议优先选Qwen或GLM系列,中文表现好很多。
另外如果你觉得本地模型效果不够好,可以混用:日常不敏感的任务走云端API(效果好),涉及公司数据的任务走本地模型(安全)。Molili支持这种混合模式,配置也简单。
照着教程配了,qwen2.5:14b在4070上跑起来了,速度大约35 token/s,感觉很流畅!完全离线,公司数据安全了![]()