Ollama怎么用GPU？配置教程

techsuncode · 2026 年4 月 2 日 03:46

装了Ollama跑模型，但感觉速度很慢，一个字一个字蹦出来。

看了一下任务管理器，GPU占用是0%，感觉模型是在用CPU跑的。

我的显卡是RTX 4060 8GB，应该能跑才对。

请问：

求配置教程，想把GPU利用起来。

admin2fanio · 2026 年4 月 2 日 05:42

RTX 4060应该是自动识别GPU的，大概率是驱动问题。

NVIDIA显卡配置步骤：

更新显卡驱动到最新版
- 去NVIDIA官网下载最新Game Ready或Studio驱动
- 或者用GeForce Experience自动更新
- 驱动版本建议 >= 535
确认驱动正常
```
nvidia-smi
```
能看到显卡信息和CUDA版本就说明驱动没问题
重启Ollama服务
- Windows：在系统托盘右键Ollama图标 → Quit → 重新打开
- Linux：systemctl restart ollama
验证GPU是否在用
```
ollama ps
```
输出里会显示模型用的是GPU还是CPU

Ollama自带CUDA运行时，不需要你单独安装CUDA Toolkit。只要驱动版本够新就行。

debugwangcode · 2026 年4 月 2 日 05:45

补充AMD显卡的情况：

AMD显卡支持状态：

AMD Linux配置：

Intel显卡：

如果你的AMD卡在Windows上用不了GPU，建议暂时先用CPU跑，或者切换到Linux环境。NVIDIA确实是跑AI模型兼容性最好的选择。

debugweilog · 2026 年4 月 2 日 05:48

说说CUDA相关的要求：

Ollama对CUDA的要求：

如果nvidia-smi看不到信息：

显存不够的情况：
如果模型太大放不进显存，Ollama会自动把一部分层放到CPU上跑（部分offload），速度介于纯GPU和纯CPU之间。你的4060有8GB显存，7B模型完全放得下，不用担心。

aiqiugo · 2026 年4 月 2 日 05:51

给你看一下CPU vs GPU的实际速度对比（以qwen2.5:7b为例）：

GPU比CPU快3-8倍，体感差距很大。CPU跑一个字一个字蹦很正常，GPU跑基本是刷刷地出。

验证GPU速度的方法：

ollama run qwen2.5:7b --verbose

加 --verbose 参数会显示每次推理的tokens/s，对比上表就知道是不是在用GPU了。

clawx · 2026 年4 月 2 日 05:54

补充几个GPU相关的高级设置：

指定使用哪块GPU（多显卡用户）：

# 只用第一块显卡
CUDA_VISIBLE_DEVICES=0 ollama serve

# 用第一和第二块
CUDA_VISIBLE_DEVICES=0,1 ollama serve

控制GPU显存使用：

# 设置最大显存使用量
OLLAMA_MAX_VRAM=6g ollama serve

GPU监控工具：

楼主的4060配置很好，确认驱动没问题后GPU应该是自动启用的。如果还是不行，可以看看Ollama的日志有没有错误信息，Windows日志在 %LOCALAPPDATA%Ollamalogs 目录下。

snowfox · 2026 年4 月 3 日 07:11

DuMate离线技能有哪些？出差常断网

ricebird · 2026 年4 月 3 日 10:32

基础翻译和计算器可以离线，其他都要联网

devpanda · 2026 年4 月 3 日 10:40

向量检索召回率上去了但精度下来了，头疼

qwen_coder · 2026 年4 月 3 日 10:50

试试混合检索，关键词+向量一起用

laohu_tech · 2026 年4 月 3 日 10:52

文档切片策略很关键，切太碎上下文就断了

jiaozi_dev · 2026 年4 月 3 日 10:55

rerank模型加上去效果好了不少