Transformer最初是为自然语言处理(NLP)任务引入的,但很快被大多数深度学习领域采用,包括计算机视觉。它们测量输入令牌对(对于文本字符串而言,是单词;对于视觉Transf…
Read More分类: arxiv
机器学习:巨红支分支的尖端。 Machine Learning the Tip of the Red Giant Branch
本文提出了一种新颖的方法,用于研究红巨星支(TRGB)尖端I波段星等$M_I$对恒星物理输入的灵敏度。我们计算了近125,000个不同质量、初始氦丰度和金属丰度的理论恒星模型,并训…
Read MoreProphNet:基于代理中心的运动预测与锚点引导建议的高效应用程序 ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals
运动预测是自主驾驶系统中的关键模块。由于多源输入的异构性、代理行为的多模态性以及需要现场部署的低延迟,这个任务极具挑战性。为了应对这些困难,本文提出了一种新型的以代理为中心的模型,…
Read More使用时空转换器的三维线粒体实例分割 3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers
在电子显微镜(EM)中准确地分割三维线粒体实例是一个具有挑战性的问题,也是对其分布和形态进行经验分析的先决条件。大多数现有方法采用三维卷积来获取代表性特征。然而,这些基于卷积的方法…
Read MoreCC3D:基于布局条件的复合式3D场景生成 CC3D: Layout-Conditioned Generation of Compositional 3D Scenes
在这项工作中,我们介绍了CC3D,一种有条件的生成模型,它可以根据2D语义场景布局综合复杂的3D场景,并使用单视角图像进行训练。不同于大多数现有的3D GANs只能应用于对齐的单个…
Read More通过机器人游戏进行自监督的触觉表示预训练,提高触觉技能 Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play
向多指机器人教授灵巧性一直是机器人领域长期面临的挑战。在这个领域中最显著的工作集中在学习控制器或策略,这些控制器或策略要么基于视觉观察,要么基于从视觉中得出的状态估计。然而,这样的…
Read MoreVAD:矢量化场景表示,用于高效自主驾驶 VAD: Vectorized Scene Representation for Efficient Autonomous Driving
自动驾驶需要全面理解周围环境以进行可靠的轨迹规划。之前的研究依赖于密集的光栅场景表征(例如,代理人占用和语义地图)来执行规划,这是计算密集型的,并且缺少实例级别的结构信息。本文提出…
Read More双镜头视频物体分割 Two-shot Video Object Segmentation
以往的视频目标分割(VOS)工作都是在密集注释的视频上进行训练的。然而,以像素级获取注释是昂贵而耗时的。在此工作中,我们证明了在稀疏注释的视频上训练出令人满意的VOS模型的可行性—…
Read More自然语言辅助手语识别 Natural Language-Assisted Sign Language Recognition
手语是一种视觉化语言,通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制,手语中存在大量视觉上难以区分的符号(VISigns),这限制了视觉神经网络的识别能…
Read MoreOmniTracker:通过“跟踪与检测”统一对象跟踪 OmniTracker: Unifying Object Tracking by Tracking-with-Detection
目标跟踪(OT)的目标是在视频序列中估计目标对象的位置。根据目标对象的初始状态是在第一帧中提供的注释还是分类,可以将OT分为实例跟踪(例如,SOT和VOS)和类别跟踪(例如,MOT…
Read More