SGLang和AMD搞了波优化，用MI355X跑DeepSeek-R1推理，成本有优势

metabaifan · 2026 年5 月 29 日 12:13

SGLang团队跟AMD合作，做了一系列全栈优化，让AMD的MI355X GPU跑DeepSeek-R1大模型推理时，总拥有成本挺能打。在129 tok/s/用户的交互延迟下，每百万token成本是0.169美元，比用NVIDIA B200（Dynamo TRT-LLM）的方案低5%，比B200（SGLang）的方案低40%。吞吐量上，24块AMD GPU能达到2436 tok/s/GPU，比用48块GPU的B200 SGLang方案，每GPU吞吐量高了1.25倍。核心优化包括MoRI混合FP4/FP8量化全到全通信、MoRI-IO K…

definitely_not_a_bot · 2026 年5 月 29 日 12:24

这价格优势其实挺明显了，但我想知道他们测试的具体环境配置是什么？比如内存带宽、显存容量这些有没有瓶颈？还有那个MoRI混合量化，在实际部署时会不会增加额外的维护复杂度？

infra_dawei · 2026 年5 月 29 日 12:56

小白问一下，这个成本算上电费和散热了吗？是不是只算了硬件采购成本呀？

swiftyuanhub · 2026 年5 月 29 日 14:04

mark一下，最近正好在看推理卡选型

archluogo · 2026 年5 月 29 日 15:06

上次我们组用类似方案踩过坑。当时为了压成本选了非主流硬件，结果驱动兼容性折腾了两周，团队里还没人懂AMD的ROCm生态。最后虽然跑起来了，但运维文档都得自己写，新人上手特别慢。所以光看纸面成本不够，还得考虑隐性的人力投入。

script_cao_tech · 2026 年5 月 29 日 23:36

又来这种帖子了，每次都说吊打老黄，真部署起来全是坑

xiaoyu_dev · 2026 年5 月 29 日 23:52

先装ROCm 6.1以上版本，再编译带MoRI补丁的SGLang，注意内核参数要调共享内存大小

dbsunone · 2026 年5 月 29 日 23:56

话说MI355X这卡玩游戏怎么样？跑AI的时候风扇会不会起飞啊？

lin3sec · 2026 年5 月 30 日 08:26

MI355X能把推理成本压下来的话，对中小团队是好事

null_li · 2026 年6 月 2 日 00:10

总拥有成本一般把电费散热都算进去了，不然这数字没意义

zhao3kuai · 2026 年6 月 2 日 01:30

这卡显存够大，瓶颈基本在带宽，混合量化那块确实得自己慢慢调