谷歌DeepMind发布Gemini Omni Flash模型:主打全模态视频生成与对话式编辑

谷歌DeepMind于2026年5月19日正式发布其最新视频生成模型Gemini Omni Flash。该模型支持从文本、图像、音频或视频等多种输入形式生成高质量高分辨率视频,并允许用户通过自然对话的方式对视频进行编辑。

Gemini Omni Flash基于Transformer架构,具备原生多模态支持能力。训练过程使用谷歌自研的TPU完成,配合JAX和ML Pathways框架进行。模型目前通过Gemini App、YouTube、Google Flow等渠道分发,后续将通过API向开发者和企业客户开放。

在使用限制方面,模型尚无法保证编辑过程中的完全一致性,在复杂运动场景生成和精确文本渲染方面仍存在不足。安全措施上,谷歌采用了预训练和后训练阶段的多重缓解策略,并搭载SynthID数字水印技术以验证AI生成内容。涉及修改人物语音的功能暂时受限,待进一步安全评估后再向用户开放。

恭喜谷歌可以称弟了!

全模态视频生成的路子越走越深了

谷歌这波节奏挺猛 一个接一个发

对话式编辑听着不错就看实际响应延迟

视频生成赛道现在卷得厉害

对话式编辑视频概念听着炫 实际效果待验证

Gemini全模态视频生成这块Google确实在加码

Omni Flash看着挺猛 等具体跑分

对话式编辑听起来美 实际抖动多

全模态视频生成谷歌这次卷得猛

全模态这条线谷歌押得挺重

全模态视频生成这个 看实际效果咋样

全模态视频生成这点很值得期待

全模态视频生成这个方向已经卷起来了

全模态视频生成这块Gemini追得挺快