消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低

如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?

vllm爆显存可以试试调小max_model_len参数,默认32k对长上下文显存占用大,另外检查下是不是用了beam search或者重复惩罚设太高了。

同问,我也是A卡用户,一直想试试vllm但看到这么多问题就犹豫了。

这帖子让我想起之前用3090跑vllm也是各种坑,最后发现是flash-attn版本不兼容,折腾了两天才搞定,A卡可能问题更多吧。

不会用就别折腾了

楼主说的transformer跑9b gptq具体怎么配置的呀?能分享一下启动代码吗?我也用的16G卡想试试大点的模型。

mark一下,等大佬们讨论出结果

是不是A卡对这类框架支持本来就不太好?我看网上很多教程都是基于N卡的,小白不太确定该怎么配置环境。

16G的A卡跑vllm确实勉强,显存一紧就各种炸,老实用小模型

调小max_model_len确实有用,长上下文太吃显存了

也想看启动配置,16G卡跑9b参数得抠很细