LDMVFI:利用潜在扩散模型进行视频帧插值

现有的关于视频帧插值(VFI)的研究多数采用深度神经网络,通过训练最小化其输出与实际帧之间的L1或L2距离。尽管近年来有所进展,现有的VFI方法往往会产生感性上较差的结果,特别是对于动态纹理和大运动等具有挑战性的场景。为了开发感性定向的VFI方法,我们提出了基于潜在扩散模型的VFI,LDMVFI。通过将VFI问题表述为条件生成问题,这种方法以一种生成的角度来考虑VFI问题。作为第一个利用潜在扩散模型来解决VFI问题的尝试,我们遵循现有VFI文献采用的通用评估协议对我们的方法进行了严格的基准测试。我们的定量实验和用户研究表明,即使在高分辨率领域,LDMVFI能够以更好的感知质量进行视频内容的插值,优于现有的技术水平。我们的源代码将在此处提供。

论文链接:http://arxiv.org/pdf/2303.09508v1

更多计算机论文:http://cspaper.cn/

Related posts