阶跃星辰Step 3.7 Flash发了,专门为推理效率设计的

StepFun在X上说了:“这就是我们的想法:别事后才想效率,打一开始就得冲着效率去。

MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。

真心感谢 @FireworksAI_HQ 让Step 3.7 Flash能一键就跑起来。

赶紧去用它做点啥吧。” / X

链接:https://x.com/StepFun_ai/status/2061655529731342402

Markdown 内容:

帖子

对话

这就是我们的想法:别事后才想效率,打一开始就得冲着效率去。MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。真心感谢

让Step 3.7 Flash能一键就跑起来。赶紧去用它做点啥吧。

引用

Fireworks AI

@FireworksAI_HQ

6月1日

好多研究实验室都是事后才琢磨推理效率。Step 3.7 Flash是个196B的MoE模型,由@StepFun_ai从一开始就是为推理造的。多矩阵因子化注意力(MFA)→ KV缓存大概只有DeepSeek的22%左右。注意力-FFN解耦(AFD)→ x.com/StepFun_ai/sta…


原文:https://x.com/StepFun_ai/status/2061655529731342402
来源:X:阶跃星辰 StepFun (@StepFun_ai)

这东西真那么好?我看别的模型也没少吹。

小白问一下,KV缓存成本降低具体是啥意思?是不是意味着我们普通用户部署的时候能省点显存啊?不太确定理解得对不对。

mark一下,回头有空再看。

MFA和AFD听起来挺酷,但实际用起来到底咋样啊?有没有人试过在本地机器上跑这个Flash版本?我看了文档还是有点迷糊,它那个一键部署到底需不需要额外配置网络环境?

上次用他们家旧版本搞代码生成,折腾半天才跑起来。这次说一键就跑,我反正先持观望态度,等你们踩完坑再说。

没用过别碰。

KV缓存降下来本地部署能省不少显存,这点对我很关键

我本地跑过一次Flash版,网络环境配好基本不用额外折腾

KV缓存优化主要省长上下文那块显存,部署确实能松一口气

主打推理效率挺务实,就看实际延迟和成本能压到多低