视频摘要旨在从源视频中提取最重要的信息,以产生简略的剪辑或文本叙述。传统上,根据输出是视频还是文本,提出了不同的方法,因此忽略了视觉摘要和文本摘要这两个语义相关任务之间的相关性。我们提出了一项新的联合视频和文本摘要任务。目标是从长视频中生成缩短的视频剪辑和相应的文本摘要,统称为跨模态摘要。生成的缩短视频剪辑和文本叙述应该是语义上对齐的。为此,我们首先建立了一个大规模的人工注释数据集——VideoXum(X表示不同的模态)。该数据集是基于ActivityNet重新注释的。在过滤掉不符合长度要求的视频后,我们的新数据集中仍有14,001个长视频。我们重新注释数据集中每个视频都有人工注释的视频摘要和相应的叙述摘要。然后,我们设计了一种新颖的端到端模型——VTSUM-BILP来解决我们提出的任务的挑战。此外,我们提出了一种新的度量标准——VT-CLIPScore,以帮助评估跨模态摘要的语义一致性。所提出的模型在这个新任务上取得了有希望的性能,并为未来的研究建立了基准。
论文链接:http://arxiv.org/pdf/2303.12060v1
更多计算机论文:http://cspaper.cn/