阶跃星辰Step 3.7 Flash发了，专门为推理效率设计的

zhangwei_nlp · 2026 年6 月 3 日 08:07

StepFun在X上说了：“这就是我们的想法：别事后才想效率，打一开始就得冲着效率去。

MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。

真心感谢 @FireworksAI_HQ 让Step 3.7 Flash能一键就跑起来。

赶紧去用它做点啥吧。” / X

Markdown 内容：

对话

这就是我们的想法：别事后才想效率，打一开始就得冲着效率去。MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。真心感谢

让Step 3.7 Flash能一键就跑起来。赶紧去用它做点啥吧。

Fireworks AI

6月1日

好多研究实验室都是事后才琢磨推理效率。Step 3.7 Flash是个196B的MoE模型，由@StepFun_ai从一开始就是为推理造的。多矩阵因子化注意力（MFA）→ KV缓存大概只有DeepSeek的22%左右。注意力-FFN解耦（AFD）→ x.com/StepFun_ai/sta…

infra_dawei · 2026 年6 月 3 日 08:20

这东西真那么好？我看别的模型也没少吹。

nvme_nate · 2026 年6 月 3 日 09:04

小白问一下，KV缓存成本降低具体是啥意思？是不是意味着我们普通用户部署的时候能省点显存啊？不太确定理解得对不对。

dbguhq · 2026 年6 月 3 日 10:00

mark一下，回头有空再看。

qawuhq · 2026 年6 月 3 日 11:54

MFA和AFD听起来挺酷，但实际用起来到底咋样啊？有没有人试过在本地机器上跑这个Flash版本？我看了文档还是有点迷糊，它那个一键部署到底需不需要额外配置网络环境？

qawangist · 2026 年6 月 3 日 14:04

上次用他们家旧版本搞代码生成，折腾半天才跑起来。这次说一键就跑，我反正先持观望态度，等你们踩完坑再说。

makerhu · 2026 年6 月 3 日 23:24

没用过别碰。

vram_xiao · 2026 年6 月 4 日 01:16

KV缓存降下来本地部署能省不少显存，这点对我很关键

bendipao9 · 2026 年6 月 7 日 13:12

我本地跑过一次Flash版，网络环境配好基本不用额外折腾

inferlu · 2026 年6 月 8 日 12:48

KV缓存优化主要省长上下文那块显存，部署确实能松一口气

kvcachen · 2026 年6 月 11 日 12:28

主打推理效率挺务实，就看实际延迟和成本能压到多低

yuanqixiu · 2026 年6 月 17 日 10:40

专门优化推理效率这方向对，模型再强用不起也白搭

bushu_step · 2026 年6 月 19 日 02:32

专门为推理效率设计这点不错，就看实际速度咋样

lin_axx · 2026 年6 月 20 日 05:00

flash版本图的就是快，精度够用就行

tuili_x · 2026 年6 月 20 日 09:16

专为推理效率设计这点戳中我，本地跑就盼着省资源

gz_shuo · 2026 年6 月 21 日 08:56

专攻推理效率这方向对，跑得快才实用

flash_s · 2026 年6 月 26 日 10:46

专为推理效率设计戳中痛点，本地跑就盼省资源