谷歌DeepMind于2026年5月19日正式发布其最新视频生成模型Gemini Omni Flash。该模型支持从文本、图像、音频或视频等多种输入形式生成高质量高分辨率视频,并允许用户通过自然对话的方式对视频进行编辑。
Gemini Omni Flash基于Transformer架构,具备原生多模态支持能力。训练过程使用谷歌自研的TPU完成,配合JAX和ML Pathways框架进行。模型目前通过Gemini App、YouTube、Google Flow等渠道分发,后续将通过API向开发者和企业客户开放。
在使用限制方面,模型尚无法保证编辑过程中的完全一致性,在复杂运动场景生成和精确文本渲染方面仍存在不足。安全措施上,谷歌采用了预训练和后训练阶段的多重缓解策略,并搭载SynthID数字水印技术以验证AI生成内容。涉及修改人物语音的功能暂时受限,待进一步安全评估后再向用户开放。
恭喜谷歌可以称弟了!

