OpenClaw怎么接本地大模型?Ollama+Qwen配置教程

不想用云端API(公司数据不能出内网),想用本地大模型。听说Ollama可以跑Qwen,怎么跟OpenClaw配合?

显卡是RTX 4070,12G显存。

4070跑Qwen2.5-7B完全没问题,速度很快。Ollama+OpenClaw配合使用是最常见的本地方案。

完整配置步骤:

1. 安装Ollama

curl -fsSL https://ollama.com/install.sh | sh

2. 下载Qwen模型

ollama pull qwen2.5:7b      # 基础版,4G显存够
ollama pull qwen2.5:14b     # 增强版,8G显存
ollama pull qwen2.5-coder:7b # 写代码专用

3. 配置OpenClaw
修改配置文件:

model: qwen2.5:7b
api_base: http://localhost:11434/v1
api_key: ollama  # Ollama不需要Key,随便填

4. 验证
启动OpenClaw,试一个任务。如果能正常响应就说明连接成功。

你的4070-12G可以直接上14b模型,效果比7b好很多。

模型选择建议:

显存 推荐模型 效果
4G qwen2.5:3b 基本够用
6G qwen2.5:7b 日常任务
8G qwen2.5:7b-q8 质量更好
12G qwen2.5:14b 接近云端
24G qwen2.5:32b 非常强

没有显卡也能跑CPU推理,只是速度慢很多(大约每秒5-10个token vs GPU的30-50个)。

本地模型的一个坑:中文支持。有些模型(比如Llama系列)中文能力不太行,建议优先选Qwen或GLM系列,中文表现好很多。

另外如果你觉得本地模型效果不够好,可以混用:日常不敏感的任务走云端API(效果好),涉及公司数据的任务走本地模型(安全)。Molili支持这种混合模式,配置也简单。

照着教程配了,qwen2.5:14b在4070上跑起来了,速度大约35 token/s,感觉很流畅!完全离线,公司数据安全了:flexed_biceps: