如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。
transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。
transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
vllm爆显存可以试试调小max_model_len参数,默认32k对长上下文显存占用大,另外检查下是不是用了beam search或者重复惩罚设太高了。
同问,我也是A卡用户,一直想试试vllm但看到这么多问题就犹豫了。
这帖子让我想起之前用3090跑vllm也是各种坑,最后发现是flash-attn版本不兼容,折腾了两天才搞定,A卡可能问题更多吧。
不会用就别折腾了
楼主说的transformer跑9b gptq具体怎么配置的呀?能分享一下启动代码吗?我也用的16G卡想试试大点的模型。
mark一下,等大佬们讨论出结果
是不是A卡对这类框架支持本来就不太好?我看网上很多教程都是基于N卡的,小白不太确定该怎么配置环境。
16G的A卡跑vllm确实勉强,显存一紧就各种炸,老实用小模型
调小max_model_len确实有用,长上下文太吃显存了
也想看启动配置,16G卡跑9b参数得抠很细