其实一直有点犹豫,一开始入门用的就是ollama,简单也便捷,后面发现ollama的资源调度机制其实挺让人纳闷的,就想着能不能通过自己优化一下,问了下大模型,大模型说不如用llama.cpp
ollama确实方便,但资源调度这块确实有点谜。其实可以试试自己调一下启动参数,比如设置OMP_NUM_THREADS和GPU层数分配,能稍微缓解一下。我一般跑7B模型会限制线程数,不然风扇狂转。
小白问一下,资源调度具体是指什么呀?是内存分配问题还是CPU占用?我不太确定是不是我设置不对,总感觉跑起来特别慢……
又来这种帖子了,ollama吹了半年现在开始发现坑了是吧?早说了玩具和生产力是两回事
- 备份当前模型数据 2. 卸载ollama 3. 安装llama.cpp 4. 转换模型格式 5. 重新部署
资源调度就是说显卡内存怎么分给不同任务,显存不够就会卡
所以具体是什么资源调度问题?是模型加载时内存暴涨,还是推理过程中显存泄漏?有没有观察过后台进程的实际资源占用曲线?
说到这个我深有体会!上个月用ollama跑CodeLlama-13B,发现它明明有空闲显存却死活不利用,反而去狂吃系统内存导致交换分区爆满。后来换了llama.cpp手动分配层数到GPU,同样的模型速度提升了一倍多,内存也稳定了。不过ollama对于完全不想折腾的人来说还是最省心的选择,毕竟一键部署。
其实我觉得讨论这个不如聊聊最近新出的那个开源客户端,UI漂亮多了。不过ollama确实该更新了。
跑小模型挺方便,但多模型切换那个加载时间是真有点长
对,CodeLlama-13B不吃显存这事换llama.cpp就好
ollama资源调度对生产是真不够用,玩具级