SGLang团队跟AMD合作,做了一系列全栈优化,让AMD的MI355X GPU跑DeepSeek-R1大模型推理时,总拥有成本挺能打。在129 tok/s/用户的交互延迟下,每百万token成本是0.169美元,比用NVIDIA B200(Dynamo TRT-LLM)的方案低5%,比B200(SGLang)的方案低40%。吞吐量上,24块AMD GPU能达到2436 tok/s/GPU,比用48块GPU的B200 SGLang方案,每GPU吞吐量高了1.25倍。核心优化包括MoRI混合FP4/FP8量化全到全通信、MoRI-IO K…
这价格优势其实挺明显了,但我想知道他们测试的具体环境配置是什么?比如内存带宽、显存容量这些有没有瓶颈?还有那个MoRI混合量化,在实际部署时会不会增加额外的维护复杂度?
小白问一下,这个成本算上电费和散热了吗?是不是只算了硬件采购成本呀?
mark一下,最近正好在看推理卡选型
上次我们组用类似方案踩过坑。当时为了压成本选了非主流硬件,结果驱动兼容性折腾了两周,团队里还没人懂AMD的ROCm生态。最后虽然跑起来了,但运维文档都得自己写,新人上手特别慢。所以光看纸面成本不够,还得考虑隐性的人力投入。
又来这种帖子了,每次都说吊打老黄,真部署起来全是坑
先装ROCm 6.1以上版本,再编译带MoRI补丁的SGLang,注意内核参数要调共享内存大小
话说MI355X这卡玩游戏怎么样?跑AI的时候风扇会不会起飞啊?
MI355X能把推理成本压下来的话,对中小团队是好事
总拥有成本一般把电费散热都算进去了,不然这数字没意义
这卡显存够大,瓶颈基本在带宽,混合量化那块确实得自己慢慢调