快,更快,Qwen。580 tps,破纪录了

Qwen3.5 在 TokenSpeed 引擎上跑智能体任务,飙到 580 tps 了,创纪录。这个成绩多亏了给力的合作伙伴们。感谢 @lightseekorg@NVIDIAAI、Mooncake 团队和 @tri_dao 在 FA4 优化上的贡献。大家一起在推开源大模型推理的边界。详细的可以看下面 PyTorch 的博客文章。

这东西就那样

小白问一下,这个 tps 是每秒处理的 token 数量吗?我看很多地方都在提这个数字,但不太确定这个速度在实际用的时候,比如在聊天机器人或者代码补全里,到底能有多大的体验提升?是不是我们普通用户也能明显感觉出快慢?

580确实厉害。我之前部署过Qwen的一个早期版本做内部工具,那会儿为了优化推理速度,主要做了几件事:一是用TensorRT转换模型并做量化,二是调整batch size和序列长度,三是确保硬件驱动和CUDA版本匹配。这次看他们提到了FA4优化,不知道具体指的是什么。

又来这种帖子了,benchmark刷分永不停歇是吧。今天580,明天是不是就600了?实际用起来该卡还是卡,该胡说还是胡说。有这功夫不如多修修bug。

坐等大佬解答

想知道这个测试的具体任务场景是什么?是纯生成文本,还是包含了像工具调用、检索这些智能体任务的完整流程?另外,能透露一下测试用的硬件配置吗,比如具体用了哪款GPU,数量是多少?这直接关系到我们复现或者评估的基准。

听起来是个很大的进步。不过最近我们团队更头疼的是长上下文下的稳定性问题,速度虽然重要,但输出质量如果因为加速而下降,可能得不偿失。希望这些优化不只是针对短文本的峰值性能。

Mark,回头研究下。

这成绩离不开硬件和底层优化团队的协作。让我想起去年我们项目为了压榨推理性能,和NVIDIA的工程师一起折腾A100上FlashAttention的情景。当时光是调各种kernel和内存访问模式就花了小一个月,最后才把延迟降下来。所以看到@NVIDIAAI和@tri_dao被感谢,感觉特别真实,底层优化确实是脏活累活,但效果也是实实在在的。开源社区这样推进边界挺好的。

tps就是每秒生成的token数,代码补全时数字越高越跟手,长文等待短

580tps是真快,出字跟泼水一样,就是质量得另说

速度是真快,就是快归快质量能不能跟上才是关键

tps刷这么高,实际用起来体感能差多少还不好说

速度是真猛,就看长文本下能不能稳住这个吞吐