视频摘要旨在从源视频中提取最重要的信息,以产生简略的剪辑或文本叙述。传统上,根据输出是视频还是文本,提出了不同的方法,因此忽略了视觉摘要和文本摘要这两个语义相关任务之间的相关性。我…
Read More每日归档: 2023年3月22日
动作至关重要:神经动作转移以提高相机生理感知能力 Motion Matters: Neural Motion Transfer for Better Camera Physiological Sensing
基于相机的生理测量的机器学习模型可能因缺乏代表性的训练数据而具有弱的泛化能力。在从视频中恢复微弱的心脏脉搏时,身体运动是最显著的噪音来源之一。我们探索了运动转移作为一种数据增强形式…
Read More一种新的方法用于在有限异构化学势条件下识别晶格量子色动力学中无偏指数再求和的破缺。 A new way to identify the breakdown of the unbiased exponential resummation in Lattice QCD at a finite isospin chemical potential
在格点QCD中,无偏指数重求和方法在真实有限异性化学势$\muI$下的有限温度计算不会出现费米符号问题。虽然这表明原则上可以在所有真实有限$\muI$值下继续计算,但是最近的研究表…
Read More大脑疾病的机器学习:变压器和视觉变压器 Machine Learning for Brain Disorders: Transformers and Visual Transformers
Transformer最初是为自然语言处理(NLP)任务引入的,但很快被大多数深度学习领域采用,包括计算机视觉。它们测量输入令牌对(对于文本字符串而言,是单词;对于视觉Transf…
Read More机器学习:巨红支分支的尖端。 Machine Learning the Tip of the Red Giant Branch
本文提出了一种新颖的方法,用于研究红巨星支(TRGB)尖端I波段星等$M_I$对恒星物理输入的灵敏度。我们计算了近125,000个不同质量、初始氦丰度和金属丰度的理论恒星模型,并训…
Read MoreProphNet:基于代理中心的运动预测与锚点引导建议的高效应用程序 ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals
运动预测是自主驾驶系统中的关键模块。由于多源输入的异构性、代理行为的多模态性以及需要现场部署的低延迟,这个任务极具挑战性。为了应对这些困难,本文提出了一种新型的以代理为中心的模型,…
Read More使用时空转换器的三维线粒体实例分割 3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers
在电子显微镜(EM)中准确地分割三维线粒体实例是一个具有挑战性的问题,也是对其分布和形态进行经验分析的先决条件。大多数现有方法采用三维卷积来获取代表性特征。然而,这些基于卷积的方法…
Read MoreCC3D:基于布局条件的复合式3D场景生成 CC3D: Layout-Conditioned Generation of Compositional 3D Scenes
在这项工作中,我们介绍了CC3D,一种有条件的生成模型,它可以根据2D语义场景布局综合复杂的3D场景,并使用单视角图像进行训练。不同于大多数现有的3D GANs只能应用于对齐的单个…
Read More通过机器人游戏进行自监督的触觉表示预训练,提高触觉技能 Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play
向多指机器人教授灵巧性一直是机器人领域长期面临的挑战。在这个领域中最显著的工作集中在学习控制器或策略,这些控制器或策略要么基于视觉观察,要么基于从视觉中得出的状态估计。然而,这样的…
Read MoreVAD:矢量化场景表示,用于高效自主驾驶 VAD: Vectorized Scene Representation for Efficient Autonomous Driving
自动驾驶需要全面理解周围环境以进行可靠的轨迹规划。之前的研究依赖于密集的光栅场景表征(例如,代理人占用和语义地图)来执行规划,这是计算密集型的,并且缺少实例级别的结构信息。本文提出…
Read More