以往的视频目标分割(VOS)工作都是在密集注释的视频上进行训练的。然而,以像素级获取注释是昂贵而耗时的。在此工作中,我们证明了在稀疏注释的视频上训练出令人满意的VOS模型的可行性—…
Read More每日归档: 2023年3月22日
自然语言辅助手语识别 Natural Language-Assisted Sign Language Recognition
手语是一种视觉化语言,通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制,手语中存在大量视觉上难以区分的符号(VISigns),这限制了视觉神经网络的识别能…
Read MoreOmniTracker:通过“跟踪与检测”统一对象跟踪 OmniTracker: Unifying Object Tracking by Tracking-with-Detection
目标跟踪(OT)的目标是在视频序列中估计目标对象的位置。根据目标对象的初始状态是在第一帧中提供的注释还是分类,可以将OT分为实例跟踪(例如,SOT和VOS)和类别跟踪(例如,MOT…
Read More