Ollama本地部署完整新手教程

cloud_miaomiao · 2026 年4 月 17 日 13:56

想在自己电脑上跑大模型，听说Ollama是最简单的方案。

但我是纯小白，之前没怎么搞过命令行，Mac电脑。看了官方文档感觉还是有点懵。

求一份完整的新手教程，从下载安装到跑起来第一个模型，最好是保姆级的那种。

另外想问：

Windows和Mac的安装有什么区别？
安装好了之后第一步该干嘛？
怎么知道模型是不是在正常运行？
需要什么样的硬件配置？

谢谢各位大佬！

fastliangone · 2026 年4 月 17 日 13:57

先说Mac安装，确实是最简单的：

Mac安装步骤：

打开 ollama.com，点击Download
下载Mac版dmg文件
双击安装，拖到Applications文件夹
打开Ollama应用（状态栏会出现一个小羊驼图标）
打开终端（Terminal），输入 ollama run qwen2.5:7b
等模型下载完成后就可以开始对话了

第一次下载模型需要几分钟到十几分钟，取决于你的网速。看到 >>> 提示符就说明成功了，直接打字就能聊天。

Mac上M1/M2/M3芯片都能用，8GB内存跑7B模型没问题，16GB可以跑13B的。

dbzhangnet · 2026 年4 月 17 日 14:00

补充Windows和Linux的安装：

Windows安装：

去 ollama.com 下载Windows安装包（exe文件）
双击运行安装程序，一路Next
安装完成后系统托盘会出现Ollama图标
打开CMD或PowerShell，输入 ollama run qwen2.5:7b

Linux安装（一行命令搞定）：

curl -fsSL https://ollama.com/install.sh | sh

安装完直接运行 ollama run qwen2.5:7b

Linux用户如果是服务器没有图形界面，可以用 ollama serve 先启动服务，然后另开一个终端窗口运行模型。

三个平台装完都是一样的用法，命令完全相同。

smartzhunet · 2026 年4 月 17 日 14:03

安装好之后，这些常用命令建议记一下：

# 下载并运行模型
ollama run qwen2.5:7b

# 只下载不运行
ollama pull llama3

# 查看已下载的模型
ollama list

# 删除模型（释放磁盘空间）
ollama rm 模型名

# 查看正在运行的模型
ollama ps

# 查看Ollama版本
ollama --version

第一次用的话推荐先试 qwen2.5:7b，中文能力很强，或者 llama3:8b 英文能力好。模型名后面的数字表示参数量，越大越聪明但也越吃配置。

新手从7B模型开始就好，等熟悉了再试更大的。

algohex · 2026 年4 月 17 日 14:06

关于GPU设置，这里单独说一下：

NVIDIA显卡用户：

安装最新版NVIDIA驱动就行，Ollama会自动检测并使用GPU
不需要单独装CUDA，Ollama自带了
用 ollama ps 可以看到模型用的是GPU还是CPU

AMD显卡用户：

Linux上支持较好，Windows上支持有限
需要ROCm驱动

没有独显怎么办：

CPU也能跑，就是慢一些
Mac的M系列芯片有统一内存架构，跑得还不错
7B模型CPU跑也能用，就是生成速度在每秒几个token

硬件最低要求：8GB内存，10GB以上磁盘空间。推荐16GB+内存配独立显卡。

dbalufan · 2026 年4 月 17 日 14:09

说几个新手常见的坑：

下载模型卡住：可能是网络问题，试试挂代理或者用镜像源
提示端口被占用：默认端口11434，检查是不是已经有一个Ollama在运行
模型回答很慢：大概率是在用CPU跑，检查GPU是否被正确识别
中文乱码：终端编码问题，Windows用户把终端改成UTF-8
内存不够：换小一号的模型，比如从13B换到7B

还有一个建议：刚开始用命令行觉得不方便的话，可以装一个Open WebUI，给Ollama套一个网页聊天界面，体验会好很多。

sysfengrun · 2026 年4 月 17 日 14:12

再推荐一个更省事的方案：装好Ollama之后，可以直接接入当贝Molili来用。

Molili支持把Ollama作为模型后端，好处是：

不用再折腾WebUI之类的前端
自带Skill插件系统，能做更多事情（搜索、文件处理等）
Token优化做得不错，同样的对话消耗更少
微信上也能用，不用一直守在电脑前

配置方法也很简单，在Molili的设置里选择Ollama后端，填上本地地址 http://localhost:11434 就行。

这样相当于 Ollama负责跑模型 + Molili负责交互体验，分工明确，整体体验比纯命令行好太多了。