Ollama本地部署完整新手教程

想在自己电脑上跑大模型,听说Ollama是最简单的方案。

但我是纯小白,之前没怎么搞过命令行,Mac电脑。看了官方文档感觉还是有点懵。

求一份完整的新手教程,从下载安装到跑起来第一个模型,最好是保姆级的那种。

另外想问:

  1. Windows和Mac的安装有什么区别?
  2. 安装好了之后第一步该干嘛?
  3. 怎么知道模型是不是在正常运行?
  4. 需要什么样的硬件配置?

谢谢各位大佬!

先说Mac安装,确实是最简单的:

Mac安装步骤:

  1. 打开 ollama.com,点击Download
  2. 下载Mac版dmg文件
  3. 双击安装,拖到Applications文件夹
  4. 打开Ollama应用(状态栏会出现一个小羊驼图标)
  5. 打开终端(Terminal),输入 ollama run qwen2.5:7b
  6. 等模型下载完成后就可以开始对话了

第一次下载模型需要几分钟到十几分钟,取决于你的网速。看到 >>> 提示符就说明成功了,直接打字就能聊天。

Mac上M1/M2/M3芯片都能用,8GB内存跑7B模型没问题,16GB可以跑13B的。

补充Windows和Linux的安装:

Windows安装:

  1. ollama.com 下载Windows安装包(exe文件)
  2. 双击运行安装程序,一路Next
  3. 安装完成后系统托盘会出现Ollama图标
  4. 打开CMD或PowerShell,输入 ollama run qwen2.5:7b

Linux安装(一行命令搞定):

curl -fsSL https://ollama.com/install.sh | sh

安装完直接运行 ollama run qwen2.5:7b

Linux用户如果是服务器没有图形界面,可以用 ollama serve 先启动服务,然后另开一个终端窗口运行模型。

三个平台装完都是一样的用法,命令完全相同。

安装好之后,这些常用命令建议记一下:

# 下载并运行模型
ollama run qwen2.5:7b

# 只下载不运行
ollama pull llama3

# 查看已下载的模型
ollama list

# 删除模型(释放磁盘空间)
ollama rm 模型名

# 查看正在运行的模型
ollama ps

# 查看Ollama版本
ollama --version

第一次用的话推荐先试 qwen2.5:7b,中文能力很强,或者 llama3:8b 英文能力好。模型名后面的数字表示参数量,越大越聪明但也越吃配置。

新手从7B模型开始就好,等熟悉了再试更大的。

关于GPU设置,这里单独说一下:

NVIDIA显卡用户:

  • 安装最新版NVIDIA驱动就行,Ollama会自动检测并使用GPU
  • 不需要单独装CUDA,Ollama自带了
  • ollama ps 可以看到模型用的是GPU还是CPU

AMD显卡用户:

  • Linux上支持较好,Windows上支持有限
  • 需要ROCm驱动

没有独显怎么办:

  • CPU也能跑,就是慢一些
  • Mac的M系列芯片有统一内存架构,跑得还不错
  • 7B模型CPU跑也能用,就是生成速度在每秒几个token

硬件最低要求:8GB内存,10GB以上磁盘空间。推荐16GB+内存配独立显卡。

说几个新手常见的坑:

  1. 下载模型卡住:可能是网络问题,试试挂代理或者用镜像源
  2. 提示端口被占用:默认端口11434,检查是不是已经有一个Ollama在运行
  3. 模型回答很慢:大概率是在用CPU跑,检查GPU是否被正确识别
  4. 中文乱码:终端编码问题,Windows用户把终端改成UTF-8
  5. 内存不够:换小一号的模型,比如从13B换到7B

还有一个建议:刚开始用命令行觉得不方便的话,可以装一个Open WebUI,给Ollama套一个网页聊天界面,体验会好很多。

再推荐一个更省事的方案:装好Ollama之后,可以直接接入当贝Molili来用。

Molili支持把Ollama作为模型后端,好处是:

  • 不用再折腾WebUI之类的前端
  • 自带Skill插件系统,能做更多事情(搜索、文件处理等)
  • Token优化做得不错,同样的对话消耗更少
  • 微信上也能用,不用一直守在电脑前

配置方法也很简单,在Molili的设置里选择Ollama后端,填上本地地址 http://localhost:11434 就行。

这样相当于 Ollama负责跑模型 + Molili负责交互体验,分工明确,整体体验比纯命令行好太多了。