在格点QCD中,无偏指数重求和方法在真实有限异性化学势$\muI$下的有限温度计算不会出现费米符号问题。虽然这表明原则上可以在所有真实有限$\muI$值下继续计算,但是最近的研究表…
Read More大脑疾病的机器学习:变压器和视觉变压器 Machine Learning for Brain Disorders: Transformers and Visual Transformers
Transformer最初是为自然语言处理(NLP)任务引入的,但很快被大多数深度学习领域采用,包括计算机视觉。它们测量输入令牌对(对于文本字符串而言,是单词;对于视觉Transf…
Read More机器学习:巨红支分支的尖端。 Machine Learning the Tip of the Red Giant Branch
本文提出了一种新颖的方法,用于研究红巨星支(TRGB)尖端I波段星等$M_I$对恒星物理输入的灵敏度。我们计算了近125,000个不同质量、初始氦丰度和金属丰度的理论恒星模型,并训…
Read MoreProphNet:基于代理中心的运动预测与锚点引导建议的高效应用程序 ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals
运动预测是自主驾驶系统中的关键模块。由于多源输入的异构性、代理行为的多模态性以及需要现场部署的低延迟,这个任务极具挑战性。为了应对这些困难,本文提出了一种新型的以代理为中心的模型,…
Read More使用时空转换器的三维线粒体实例分割 3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers
在电子显微镜(EM)中准确地分割三维线粒体实例是一个具有挑战性的问题,也是对其分布和形态进行经验分析的先决条件。大多数现有方法采用三维卷积来获取代表性特征。然而,这些基于卷积的方法…
Read MoreCC3D:基于布局条件的复合式3D场景生成 CC3D: Layout-Conditioned Generation of Compositional 3D Scenes
在这项工作中,我们介绍了CC3D,一种有条件的生成模型,它可以根据2D语义场景布局综合复杂的3D场景,并使用单视角图像进行训练。不同于大多数现有的3D GANs只能应用于对齐的单个…
Read More通过机器人游戏进行自监督的触觉表示预训练,提高触觉技能 Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play
向多指机器人教授灵巧性一直是机器人领域长期面临的挑战。在这个领域中最显著的工作集中在学习控制器或策略,这些控制器或策略要么基于视觉观察,要么基于从视觉中得出的状态估计。然而,这样的…
Read MoreVAD:矢量化场景表示,用于高效自主驾驶 VAD: Vectorized Scene Representation for Efficient Autonomous Driving
自动驾驶需要全面理解周围环境以进行可靠的轨迹规划。之前的研究依赖于密集的光栅场景表征(例如,代理人占用和语义地图)来执行规划,这是计算密集型的,并且缺少实例级别的结构信息。本文提出…
Read More双镜头视频物体分割 Two-shot Video Object Segmentation
以往的视频目标分割(VOS)工作都是在密集注释的视频上进行训练的。然而,以像素级获取注释是昂贵而耗时的。在此工作中,我们证明了在稀疏注释的视频上训练出令人满意的VOS模型的可行性—…
Read More自然语言辅助手语识别 Natural Language-Assisted Sign Language Recognition
手语是一种视觉化语言,通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制,手语中存在大量视觉上难以区分的符号(VISigns),这限制了视觉神经网络的识别能…
Read More