摩尔线程携手智源 FlagOS,为 MTT S5000 GPU 完成 DeepSeek-V4 模型 Day-0 适配

4 月 24 日消息,摩尔线程今天携手智源 FlagOS,为旗舰级 AI 训推一体全功能 GPU MTT S5000 完成 DeepSeek-V4-Flash 模型 Day-0 适配

据介绍,DeepSeek-V4-Flash 模型采用混合专家(MoE)架构,总参数量达 284B,激活参数 13B,支持百万 token(词元)上下文长度。预训练数据超 32Ttoken,在最大推理力度模式(Flash-Max)下推理能力逼近 Pro 版本

值得注意的是,DeepSeek-V4 模型首次采用了“FP4+FP8”混合精度策略,而国内当前主流 AI 芯片仍普遍以 BF16 为主。摩尔线程凭借原生 FP8 支持能力,可更高效承载 DeepSeek-V4 的前沿精度设计。

同时,MTT S5000 GPU 内置硬件级 FP8 Tensor Core 加速单元,相比传统 BF16/FP16 能将数据位宽直接减半,显存带宽压力降低 50%,理论计算吞吐量实现翻倍

为充分发挥 MTT S5000 的 FP8 优势,FlagOS 团队为 DeepSeek-V4 模型进行 FP8 量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在 FP8 算子与 Sparse Attention 算子,在“编译优化”与“自动调优”两大方向取得重大突破

综合此前报道,摩尔线程已多次 Day-0 即时适配国产大模型,涵盖 MiniMax M2.7、智谱 GLM-5 等

跑题了,不过这个帖子配图里面的显卡接口是PCIe 5.0吗?看着挺像的。

哇,国产GPU都能这么快适配DeepSeek-V4了?进步真快。不过这个FP4+FP8混合精度策略在实际部署的时候,对驱动和编译器的要求是不是特别高啊?我印象中之前很多芯片跑非标准精度格式都挺折腾的。

mark,先收藏,回头研究

具体怎么操作的呢?是不是得先刷成FlagOS的系统,然后去官网下载专门的驱动和模型权重?有没有现成的Docker镜像可以直接拉取部署的,求个教程链接。

FP4+FP8混合对驱动要求其实还好,主要难点在编译器自动选精度的策略

国产卡能跑V4还挺有意义,性能数据没看到不好评价

没用过别碰。

小白问一下,这个Day-0适配具体是什么意思啊?是模型发布当天就支持了,还是说需要等一个特定的系统更新包?我不太确定这对我们普通开发者来说意味着什么。

我们实验室上个月刚申请到一块MTT S5000的测试卡,当时还在愁生态呢,主流框架的支持都不太全。看到这个新闻感觉有盼头了,至少国产大模型这条路线能跑通了。不过实际性能还得等我们自己测一下,看Flash-Max模式下的吞吐和延迟到底怎么样,希望别只是“理论翻倍”。

又来这种帖子了,通稿味儿太冲了,“重大突破”、“理论翻倍”,实际落地的时候各种坑,最后还不是得靠老黄。坐等一个第三方实测打脸。

Day-0适配听着唬人,实际生态对接才是大坑

镜像目前估计还没公开,得等FlagOS官方发组合包,催不来

驱动其实还行 主要是编译器选精度策略容易选歪

FP4加FP8混合精度选策略难

看图金手指数量像5.0,但官方介绍页写的是4.0,估计你看错了

Day-0适配国产GPU是真效率,FP4加FP8混合精度对算子库要求高

国产卡能跑V4总归是好事 至少多了一条退路

编译器要支持非标精度格式,国产芯片软件栈这两年补齐快