Ollama怎么用GPU?配置教程

装了Ollama跑模型,但感觉速度很慢,一个字一个字蹦出来。

看了一下任务管理器,GPU占用是0%,感觉模型是在用CPU跑的。

我的显卡是RTX 4060 8GB,应该能跑才对。

请问:

  1. Ollama怎么设置才能用GPU?
  2. 需要额外安装CUDA之类的东西吗?
  3. 怎么确认模型确实在用GPU?
  4. GPU跑和CPU跑速度差多少?

求配置教程,想把GPU利用起来。

RTX 4060应该是自动识别GPU的,大概率是驱动问题。

NVIDIA显卡配置步骤:

  1. 更新显卡驱动到最新版

    • 去NVIDIA官网下载最新Game Ready或Studio驱动
    • 或者用GeForce Experience自动更新
    • 驱动版本建议 >= 535
  2. 确认驱动正常

    nvidia-smi
    

    能看到显卡信息和CUDA版本就说明驱动没问题

  3. 重启Ollama服务

    • Windows:在系统托盘右键Ollama图标 → Quit → 重新打开
    • Linux:systemctl restart ollama
  4. 验证GPU是否在用

    ollama ps
    

    输出里会显示模型用的是GPU还是CPU

Ollama自带CUDA运行时,不需要你单独安装CUDA Toolkit。只要驱动版本够新就行。

1 个赞

补充AMD显卡的情况:

AMD显卡支持状态:

  • Linux上通过ROCm支持,需要安装ROCm驱动
  • Windows上AMD GPU支持还在改善中,部分型号可能不行
  • 支持的AMD型号:RX 7000系列、RX 6000系列等较新的卡

AMD Linux配置:

  1. 安装ROCm驱动
  2. 设置环境变量 HSA_OVERRIDE_GFX_VERSION(部分型号需要)
  3. 重启Ollama

Intel显卡:

  • 新版Ollama开始支持Intel Arc系列
  • 但性能和兼容性不如NVIDIA

如果你的AMD卡在Windows上用不了GPU,建议暂时先用CPU跑,或者切换到Linux环境。NVIDIA确实是跑AI模型兼容性最好的选择。

说说CUDA相关的要求:

Ollama对CUDA的要求:

  • Ollama自带CUDA运行时库,不需要单独安装CUDA Toolkit
  • 但需要NVIDIA驱动支持CUDA 11.7+(驱动版本 >= 515即可)
  • 更新的驱动支持更新的CUDA,建议直接装最新驱动

如果nvidia-smi看不到信息:

  1. 确认显卡驱动已安装(设备管理器查看)
  2. 确认不是笔记本的集成显卡在工作(需要切换到独显)
  3. 笔记本用户检查是否开启了"混合模式",可能需要在BIOS或NVIDIA控制面板里设置

显存不够的情况:
如果模型太大放不进显存,Ollama会自动把一部分层放到CPU上跑(部分offload),速度介于纯GPU和纯CPU之间。你的4060有8GB显存,7B模型完全放得下,不用担心。

给你看一下CPU vs GPU的实际速度对比(以qwen2.5:7b为例):

硬件 生成速度(tokens/s) 首次响应
RTX 4060 (GPU) 40-60 tok/s <1秒
RTX 3060 (GPU) 30-45 tok/s ~1秒
i7-13700 (CPU) 8-15 tok/s 2-5秒
M2 Pro (Apple) 25-35 tok/s ~1秒
i5-12400 (CPU) 5-10 tok/s 3-8秒

GPU比CPU快3-8倍,体感差距很大。CPU跑一个字一个字蹦很正常,GPU跑基本是刷刷地出。

验证GPU速度的方法:

ollama run qwen2.5:7b --verbose

--verbose 参数会显示每次推理的tokens/s,对比上表就知道是不是在用GPU了。

2 个赞

补充几个GPU相关的高级设置:

指定使用哪块GPU(多显卡用户):

# 只用第一块显卡
CUDA_VISIBLE_DEVICES=0 ollama serve

# 用第一和第二块
CUDA_VISIBLE_DEVICES=0,1 ollama serve

控制GPU显存使用:

# 设置最大显存使用量
OLLAMA_MAX_VRAM=6g ollama serve

GPU监控工具:

  • Windows:任务管理器 → 性能 → GPU
  • Linux:watch -n 1 nvidia-smi
  • 第三方:GPU-Z(更详细)

楼主的4060配置很好,确认驱动没问题后GPU应该是自动启用的。如果还是不行,可以看看Ollama的日志有没有错误信息,Windows日志在 %LOCALAPPDATA%Ollamalogs 目录下。

DuMate离线技能有哪些?出差常断网

基础翻译和计算器可以离线,其他都要联网

向量检索召回率上去了但精度下来了,头疼

试试混合检索,关键词+向量一起用

文档切片策略很关键,切太碎上下文就断了

rerank模型加上去效果好了不少