Ollama加Open WebUI搭建私有ChatGPT，2小时搞定，手把手教程

chmod777 · 2026 年3 月 26 日 02:36

想要一个完全私有、不花API费、数据不出本地的ChatGPT？Ollama + Open WebUI就能搞定。上周末花了2小时部署好了，分享教程。

为什么要搭私有的？

隐私——公司代码、内部文档不想传到云端
省钱——本地跑完全免费
不受限——没有网络波动和频率限制

硬件要求：最低8GB内存+任意CPU就能跑（没GPU也行只是慢）。推荐16GB内存+8GB以上显存。

安装步骤（Linux为例）：

# 1. 装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载模型
ollama pull qwen2.5:7b

# 3. 装Open WebUI（Docker一行命令）
docker run -d -p 3000:8080   --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui   ghcr.io/open-webui/open-webui:main

打开localhost:3000注册管理员就能用了。

性能参考（RTX 3060 12GB）：

Qwen2.5:7b → ~35 token/s，中文很好
DeepSeek:8b → ~30 token/s，推理强
CodeLlama:7b → ~35 token/s，写代码

有搭建过本地AI的吗？遇到什么问题可以交流~

linuxfenger · 2026 年3 月 26 日 02:44

好教程！补充几个新手容易踩的坑：

坑1：Docker网络问题
Open WebUI在Docker里需要访问宿主机的Ollama，--add-host=host.docker.internal:host-gateway这行很关键，漏了就连不上。

坑2：显存不够的处理
7B模型Q4量化大概需要4GB显存。如果你的显卡只有4GB，可以用3B模型或者纯CPU模式。纯CPU也能跑，速度大概5-10 token/s，聊天够用。

坑3：中文模型选择
Llama系列中文不太行。推荐Qwen2.5或者DeepSeek做中文场景。如果需要中英双语，Qwen2.5是目前最优解。

坑4：Open WebUI更新
Open WebUI更新很频繁，定期执行docker pull ghcr.io/open-webui/open-webui:main获取新版本。但生产环境建议锁定版本号，别用latest。

pve_cluster_guy · 2026 年3 月 26 日 03:11

NAS玩家来分享一下在群晖上部署的经验。

我在DS923+（AMD Ryzen R1600，8GB内存）上部署了Ollama + Open WebUI，跑3B模型。

能用，但体验一般。 速度大概3-5 token/s，日常简单问答还行，长文本生成就很慢了。

几个NAS特有的坑：

群晖Docker的内存限制默认很低，需要在Container Manager里手动调大
ARM架构的NAS（比如DS220j）不支持，必须是x86架构
模型文件很大（7B大概4-5GB），注意存储空间

我的用法：在NAS上跑一个轻量模型做家庭助手——帮孩子解答作业问题、翻译文档、整理菜谱。这些场景对速度要求不高，本地隐私又有保障。

如果追求性能还是建议用独立的PC或者小服务器。闲鱼上买个二手的3060小主机也就两三千。

chloe_runs_k8s · 2026 年3 月 26 日 03:36

企业级部署分享一下。

我在公司内网部署了一套给团队用的方案，跟个人部署有几点不同：

1. 多GPU负载均衡
公司有3张A100，用vLLM代替Ollama做推理引擎，支持多卡并行和连续批处理。性能是Ollama的5-10倍。

2. 模型管理
不同团队需要不同模型。研发团队用CodeLlama写代码，产品团队用Qwen做文档。用Open WebUI的多模型切换功能，统一入口。

3. 审计日志
企业环境必须记录谁问了什么。Open WebUI自带对话历史，我们额外做了日志导出对接到公司的审计系统。

4. SSO集成
Open WebUI支持LDAP/OAuth登录，对接公司统一认证。不需要每人单独注册。

如果是个人用，楼主的方案完全够。如果是给团队用，建议在推理引擎和权限管理上多投入一些。

kernelpanic_dev · 2026 年3 月 26 日 04:06

Apple Silicon用户来报到。

M2 Pro 16GB内存跑Ollama，体验出乎意料的好：

Qwen2.5:7b → ~25 token/s
DeepSeek:8b → ~20 token/s

Mac的统一内存架构对大模型推理很友好，不像N卡受显存限制。16GB内存跑7B绰绰有余，32GB可以上13B甚至更大。

安装更简单：

brew install ollama
ollama serve
ollama pull qwen2.5:7b

Open WebUI装法一样。不需要Docker的话还有个更轻量的选择——Enchanted，Mac原生的Ollama客户端，AppStore直接下，界面很漂亮。

Mac用户别犹豫，你的电脑本身就是一台不错的AI推理机。

chmod777 · 2026 年3 月 26 日 03:53

感谢大家补充了各种平台的部署经验！

总结一下各平台推荐方案：

Linux/Windows PC（有GPU）：Ollama + Open WebUI ← 本文方案
Mac（Apple Silicon）：Ollama + Open WebUI 或 Enchanted
NAS：适合轻量场景，跑3B模型
企业内网：vLLM + Open WebUI + SSO集成

@kernelpanic_dev Mac方案我没试过，回头体验一下Enchanted

大家可以根据自己的硬件条件选择最合适的方案。有问题随时问~