Ollama加Open WebUI搭建私有ChatGPT,2小时搞定,手把手教程

想要一个完全私有、不花API费、数据不出本地的ChatGPT?Ollama + Open WebUI就能搞定。上周末花了2小时部署好了,分享教程。

为什么要搭私有的?

  1. 隐私——公司代码、内部文档不想传到云端
  2. 省钱——本地跑完全免费
  3. 不受限——没有网络波动和频率限制

硬件要求:最低8GB内存+任意CPU就能跑(没GPU也行只是慢)。推荐16GB内存+8GB以上显存。

安装步骤(Linux为例):

# 1. 装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载模型
ollama pull qwen2.5:7b

# 3. 装Open WebUI(Docker一行命令)
docker run -d -p 3000:8080   --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui   ghcr.io/open-webui/open-webui:main

打开localhost:3000注册管理员就能用了。

性能参考(RTX 3060 12GB):

  • Qwen2.5:7b → ~35 token/s,中文很好
  • DeepSeek:8b → ~30 token/s,推理强
  • CodeLlama:7b → ~35 token/s,写代码

有搭建过本地AI的吗?遇到什么问题可以交流~

好教程!补充几个新手容易踩的坑:

坑1:Docker网络问题
Open WebUI在Docker里需要访问宿主机的Ollama,--add-host=host.docker.internal:host-gateway这行很关键,漏了就连不上。

坑2:显存不够的处理
7B模型Q4量化大概需要4GB显存。如果你的显卡只有4GB,可以用3B模型或者纯CPU模式。纯CPU也能跑,速度大概5-10 token/s,聊天够用。

坑3:中文模型选择
Llama系列中文不太行。推荐Qwen2.5或者DeepSeek做中文场景。如果需要中英双语,Qwen2.5是目前最优解。

坑4:Open WebUI更新
Open WebUI更新很频繁,定期执行docker pull ghcr.io/open-webui/open-webui:main获取新版本。但生产环境建议锁定版本号,别用latest。

3 个赞

NAS玩家来分享一下在群晖上部署的经验。

我在DS923+(AMD Ryzen R1600,8GB内存)上部署了Ollama + Open WebUI,跑3B模型。

能用,但体验一般。 速度大概3-5 token/s,日常简单问答还行,长文本生成就很慢了。

几个NAS特有的坑:

  1. 群晖Docker的内存限制默认很低,需要在Container Manager里手动调大
  2. ARM架构的NAS(比如DS220j)不支持,必须是x86架构
  3. 模型文件很大(7B大概4-5GB),注意存储空间

我的用法:在NAS上跑一个轻量模型做家庭助手——帮孩子解答作业问题、翻译文档、整理菜谱。这些场景对速度要求不高,本地隐私又有保障。

如果追求性能还是建议用独立的PC或者小服务器。闲鱼上买个二手的3060小主机也就两三千。

1 个赞

企业级部署分享一下。

我在公司内网部署了一套给团队用的方案,跟个人部署有几点不同:

1. 多GPU负载均衡
公司有3张A100,用vLLM代替Ollama做推理引擎,支持多卡并行和连续批处理。性能是Ollama的5-10倍。

2. 模型管理
不同团队需要不同模型。研发团队用CodeLlama写代码,产品团队用Qwen做文档。用Open WebUI的多模型切换功能,统一入口。

3. 审计日志
企业环境必须记录谁问了什么。Open WebUI自带对话历史,我们额外做了日志导出对接到公司的审计系统。

4. SSO集成
Open WebUI支持LDAP/OAuth登录,对接公司统一认证。不需要每人单独注册。

如果是个人用,楼主的方案完全够。如果是给团队用,建议在推理引擎和权限管理上多投入一些。

1 个赞

Apple Silicon用户来报到。

M2 Pro 16GB内存跑Ollama,体验出乎意料的好:

  • Qwen2.5:7b → ~25 token/s
  • DeepSeek:8b → ~20 token/s

Mac的统一内存架构对大模型推理很友好,不像N卡受显存限制。16GB内存跑7B绰绰有余,32GB可以上13B甚至更大。

安装更简单:

brew install ollama
ollama serve
ollama pull qwen2.5:7b

Open WebUI装法一样。不需要Docker的话还有个更轻量的选择——Enchanted,Mac原生的Ollama客户端,AppStore直接下,界面很漂亮。

Mac用户别犹豫,你的电脑本身就是一台不错的AI推理机。

1 个赞

感谢大家补充了各种平台的部署经验!

总结一下各平台推荐方案:

  • Linux/Windows PC(有GPU):Ollama + Open WebUI ← 本文方案
  • Mac(Apple Silicon):Ollama + Open WebUI 或 Enchanted
  • NAS:适合轻量场景,跑3B模型
  • 企业内网:vLLM + Open WebUI + SSO集成

@kernelpanic_dev Mac方案我没试过,回头体验一下Enchanted

大家可以根据自己的硬件条件选择最合适的方案。有问题随时问~

3 个赞