StepFun在X上说了:“这就是我们的想法:别事后才想效率,打一开始就得冲着效率去。
MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。
真心感谢 @FireworksAI_HQ 让Step 3.7 Flash能一键就跑起来。
赶紧去用它做点啥吧。” / X
链接:https://x.com/StepFun_ai/status/2061655529731342402
Markdown 内容:
帖子
对话
这就是我们的想法:别事后才想效率,打一开始就得冲着效率去。MFA加AFD可不是小把戏。它们让Step 3.7 Flash能用超低的KV缓存成本来提供服务。真心感谢
让Step 3.7 Flash能一键就跑起来。赶紧去用它做点啥吧。
引用
Fireworks AI
@FireworksAI_HQ
6月1日
好多研究实验室都是事后才琢磨推理效率。Step 3.7 Flash是个196B的MoE模型,由@StepFun_ai从一开始就是为推理造的。多矩阵因子化注意力(MFA)→ KV缓存大概只有DeepSeek的22%左右。注意力-FFN解耦(AFD)→ x.com/StepFun_ai/sta…
原文:https://x.com/StepFun_ai/status/2061655529731342402
来源:X:阶跃星辰 StepFun (@StepFun_ai)