arxiv – 第12页 – TensorFlowNews

大脑疾病的机器学习：变压器和视觉变压器 Machine Learning for Brain Disorders: Transformers and Visual Transformers

Transformer最初是为自然语言处理（NLP）任务引入的，但很快被大多数深度学习领域采用，包括计算机视觉。它们测量输入令牌对（对于文本字符串而言，是单词；对于视觉Transf…

本文提出了一种新颖的方法，用于研究红巨星支（TRGB）尖端I波段星等$M_I$对恒星物理输入的灵敏度。我们计算了近125,000个不同质量、初始氦丰度和金属丰度的理论恒星模型，并训…

运动预测是自主驾驶系统中的关键模块。由于多源输入的异构性、代理行为的多模态性以及需要现场部署的低延迟，这个任务极具挑战性。为了应对这些困难，本文提出了一种新型的以代理为中心的模型，…

在电子显微镜（EM）中准确地分割三维线粒体实例是一个具有挑战性的问题，也是对其分布和形态进行经验分析的先决条件。大多数现有方法采用三维卷积来获取代表性特征。然而，这些基于卷积的方法…

在这项工作中，我们介绍了CC3D，一种有条件的生成模型，它可以根据2D语义场景布局综合复杂的3D场景，并使用单视角图像进行训练。不同于大多数现有的3D GANs只能应用于对齐的单个…

向多指机器人教授灵巧性一直是机器人领域长期面临的挑战。在这个领域中最显著的工作集中在学习控制器或策略，这些控制器或策略要么基于视觉观察，要么基于从视觉中得出的状态估计。然而，这样的…

自动驾驶需要全面理解周围环境以进行可靠的轨迹规划。之前的研究依赖于密集的光栅场景表征（例如，代理人占用和语义地图）来执行规划，这是计算密集型的，并且缺少实例级别的结构信息。本文提出…

以往的视频目标分割（VOS）工作都是在密集注释的视频上进行训练的。然而，以像素级获取注释是昂贵而耗时的。在此工作中，我们证明了在稀疏注释的视频上训练出令人满意的VOS模型的可行性—…

手语是一种视觉化语言，通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制，手语中存在大量视觉上难以区分的符号（VISigns），这限制了视觉神经网络的识别能…

目标跟踪（OT）的目标是在视频序列中估计目标对象的位置。根据目标对象的初始状态是在第一帧中提供的注释还是分类，可以将OT分为实例跟踪（例如，SOT和VOS）和类别跟踪（例如，MOT…