双镜头视频物体分割 Two-shot Video Object Segmentation

以往的视频目标分割(VOS)工作都是在密集注释的视频上进行训练的。然而,以像素级获取注释是昂贵而耗时的。在此工作中,我们证明了在稀疏注释的视频上训练出令人满意的VOS模型的可行性——我们仅需要每个训练视频两个标记帧,同时性能得以保持。我们将这种新颖的训练范式称为两步视频对象分割,或简称两步VOS。其基本思想是在训练过程中为未标记的帧生成伪标签,并在标记和伪标签数据的组合上对模型进行优化。我们的方法非常简单,可以应用于大多数现有的框架。我们首先以半监督的方式在稀疏注释的视频上预训练VOS模型,其中第一帧始终是带标记的。然后,我们采用预训练的VOS模型为所有未标记的帧生成伪标签,并将其存储在伪标签库中。最后,我们在不限制第一帧的情况下,重新训练一个VOS模型,使用标记和伪标签数据。我们首次提出了一种通用方法,以在两步VOS数据集上训练VOS模型。通过使用YouTube-VOS和DAVIS基准测试的7.3%和2.9%标记数据,我们的方法在与完全标记集上训练的对应方法相比取得了可比较的结果。代码和模型可在https://github.com/yk-pku/ Two-shot-Video-Object-Segmentation获得。

论文链接:http://arxiv.org/pdf/2303.12078v1

更多计算机论文:http://cspaper.cn/

Related posts