基于扩散的生成模型在基于文本的图像生成方面取得了显着的成功。然而,由于其在生成过程中包含巨大的随机性,因此在真实世界的视觉内容编辑中仍然具有挑战性,特别是在视频中。在本文中,我们提出了FateZero,一种在真实世界视频上进行零激发文本编辑的方法,无需每个提示进行培训或使用特定的掩码。为了保持视频的连贯性,我们提出了基于预训练模型的几种技术。首先,与直接DDIM反转技术相比,我们的方法在反转过程中捕获了中间的注意力图,这有效地保留了结构和运动信息。这些图直接在编辑过程中融合,而不是在去噪过程中生成。为了进一步最小化源视频的语义泄漏,我们随后将自我关注融合到通过跨注意力特征获得的混合掩码中。此外,我们通过引入时空注意力来保证帧一致性,在去噪UNet中实现了自我关注机制的改革。简明扼要地说,我们的方法是第一个展示训练的文本到图像模型具有零激发驱动的视频风格和局部属性编辑能力的方法。我们还基于文本到视频模型具有更好的零激发形状感知编辑能力。广泛的实验证明了我们的超强时间一致性和编辑能力优于以前的工作。
论文链接:http://arxiv.org/pdf/2303.09535v1
更多计算机论文:http://cspaper.cn/