装了Ollama跑模型,但感觉速度很慢,一个字一个字蹦出来。
看了一下任务管理器,GPU占用是0%,感觉模型是在用CPU跑的。
我的显卡是RTX 4060 8GB,应该能跑才对。
请问:
- Ollama怎么设置才能用GPU?
- 需要额外安装CUDA之类的东西吗?
- 怎么确认模型确实在用GPU?
- GPU跑和CPU跑速度差多少?
求配置教程,想把GPU利用起来。
装了Ollama跑模型,但感觉速度很慢,一个字一个字蹦出来。
看了一下任务管理器,GPU占用是0%,感觉模型是在用CPU跑的。
我的显卡是RTX 4060 8GB,应该能跑才对。
请问:
求配置教程,想把GPU利用起来。
RTX 4060应该是自动识别GPU的,大概率是驱动问题。
NVIDIA显卡配置步骤:
更新显卡驱动到最新版
确认驱动正常
nvidia-smi
能看到显卡信息和CUDA版本就说明驱动没问题
重启Ollama服务
systemctl restart ollama验证GPU是否在用
ollama ps
输出里会显示模型用的是GPU还是CPU
Ollama自带CUDA运行时,不需要你单独安装CUDA Toolkit。只要驱动版本够新就行。
补充AMD显卡的情况:
AMD显卡支持状态:
AMD Linux配置:
HSA_OVERRIDE_GFX_VERSION(部分型号需要)Intel显卡:
如果你的AMD卡在Windows上用不了GPU,建议暂时先用CPU跑,或者切换到Linux环境。NVIDIA确实是跑AI模型兼容性最好的选择。
说说CUDA相关的要求:
Ollama对CUDA的要求:
如果nvidia-smi看不到信息:
显存不够的情况:
如果模型太大放不进显存,Ollama会自动把一部分层放到CPU上跑(部分offload),速度介于纯GPU和纯CPU之间。你的4060有8GB显存,7B模型完全放得下,不用担心。
给你看一下CPU vs GPU的实际速度对比(以qwen2.5:7b为例):
| 硬件 | 生成速度(tokens/s) | 首次响应 |
|---|---|---|
| RTX 4060 (GPU) | 40-60 tok/s | <1秒 |
| RTX 3060 (GPU) | 30-45 tok/s | ~1秒 |
| i7-13700 (CPU) | 8-15 tok/s | 2-5秒 |
| M2 Pro (Apple) | 25-35 tok/s | ~1秒 |
| i5-12400 (CPU) | 5-10 tok/s | 3-8秒 |
GPU比CPU快3-8倍,体感差距很大。CPU跑一个字一个字蹦很正常,GPU跑基本是刷刷地出。
验证GPU速度的方法:
ollama run qwen2.5:7b --verbose
加 --verbose 参数会显示每次推理的tokens/s,对比上表就知道是不是在用GPU了。
补充几个GPU相关的高级设置:
指定使用哪块GPU(多显卡用户):
# 只用第一块显卡
CUDA_VISIBLE_DEVICES=0 ollama serve
# 用第一和第二块
CUDA_VISIBLE_DEVICES=0,1 ollama serve
控制GPU显存使用:
# 设置最大显存使用量
OLLAMA_MAX_VRAM=6g ollama serve
GPU监控工具:
watch -n 1 nvidia-smi楼主的4060配置很好,确认驱动没问题后GPU应该是自动启用的。如果还是不行,可以看看Ollama的日志有没有错误信息,Windows日志在 %LOCALAPPDATA%Ollamalogs 目录下。
DuMate离线技能有哪些?出差常断网
基础翻译和计算器可以离线,其他都要联网
向量检索召回率上去了但精度下来了,头疼
试试混合检索,关键词+向量一起用
文档切片策略很关键,切太碎上下文就断了
rerank模型加上去效果好了不少