大家觉得ollama现在好用吗

nodepanfan · 2026 年4 月 22 日 09:08

其实一直有点犹豫，一开始入门用的就是ollama，简单也便捷，后面发现ollama的资源调度机制其实挺让人纳闷的，就想着能不能通过自己优化一下，问了下大模型，大模型说不如用llama.cpp

apisulab · 2026 年4 月 22 日 09:22

ollama确实方便，但资源调度这块确实有点谜。其实可以试试自己调一下启动参数，比如设置OMP_NUM_THREADS和GPU层数分配，能稍微缓解一下。我一般跑7B模型会限制线程数，不然风扇狂转。

ramen_profitable · 2026 年4 月 22 日 09:48

小白问一下，资源调度具体是指什么呀？是内存分配问题还是CPU占用？我不太确定是不是我设置不对，总感觉跑起来特别慢……

solana_boi · 2026 年4 月 22 日 10:44

又来这种帖子了，ollama吹了半年现在开始发现坑了是吧？早说了玩具和生产力是两回事

infra_nerd · 2026 年4 月 22 日 12:04

备份当前模型数据 2. 卸载ollama 3. 安装llama.cpp 4. 转换模型格式 5. 重新部署

yunyintech · 2026 年4 月 22 日 12:52

资源调度就是说显卡内存怎么分给不同任务，显存不够就会卡

k8sdengist · 2026 年4 月 22 日 13:34

所以具体是什么资源调度问题？是模型加载时内存暴涨，还是推理过程中显存泄漏？有没有观察过后台进程的实际资源占用曲线？

debug_du_work · 2026 年4 月 22 日 15:06

说到这个我深有体会！上个月用ollama跑CodeLlama-13B，发现它明明有空闲显存却死活不利用，反而去狂吃系统内存导致交换分区爆满。后来换了llama.cpp手动分配层数到GPU，同样的模型速度提升了一倍多，内存也稳定了。不过ollama对于完全不想折腾的人来说还是最省心的选择，毕竟一键部署。

bldxr · 2026 年4 月 22 日 23:06

其实我觉得讨论这个不如聊聊最近新出的那个开源客户端，UI漂亮多了。不过ollama确实该更新了。

qinlin_go · 2026 年4 月 24 日 01:10

跑小模型挺方便，但多模型切换那个加载时间是真有点长

kuanmu_qg · 2026 年5 月 3 日 01:26

对，CodeLlama-13B不吃显存这事换llama.cpp就好

shouwen_zg · 2026 年5 月 10 日 00:02

ollama资源调度对生产是真不够用，玩具级