谷歌发布开源扩散模型 DiffusionGemma,文本生成提速 4 倍

2026年6月10日,谷歌宣布推出全新实验性开源模型 DiffusionGemma(Apache 2.0 许可)。该模型拥有 260 亿参数(26B),采用混合专家(MoE)架构,通过开创性地引入文本扩散(Text Diffusion)技术,在专用 GPU 上实现了高达 4 倍的推理速度跃升。

核心亮点
颠覆传统生成机制:打破了传统大语言模型“逐字打字”的模式。DiffusionGemma 能够一次性并行生成包含 256 个词元的整个文本块,并在迭代中进行智能自我纠错。
极速推理与亲民门槛:在消费级 RTX 5090 显卡上生成速度可达每秒 700+ 词元。由于推理时仅激活 38 亿参数,量化后可轻松跑在 18GB 显存的高端消费级 GPU 上。
双向注意力优势:得益于并行生成,上下文词元可相互关注,极大提升了代码填补、内联编辑等非线性任务的表现。

来源:

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

https://huggingface.co/google/diffusiongemma-26B-A4B-it

别问跑分好不好,你就说这快不快

效率提升确实很重要