2023年3月22日 – TensorFlowNews

VideoXum：视频的跨模态视觉和文本摘要 VideoXum: Cross-modal Visual and Textural Summarization of Videos

视频摘要旨在从源视频中提取最重要的信息，以产生简略的剪辑或文本叙述。传统上，根据输出是视频还是文本，提出了不同的方法，因此忽略了视觉摘要和文本摘要这两个语义相关任务之间的相关性。我…

基于相机的生理测量的机器学习模型可能因缺乏代表性的训练数据而具有弱的泛化能力。在从视频中恢复微弱的心脏脉搏时，身体运动是最显著的噪音来源之一。我们探索了运动转移作为一种数据增强形式…

在格点QCD中，无偏指数重求和方法在真实有限异性化学势$\muI$下的有限温度计算不会出现费米符号问题。虽然这表明原则上可以在所有真实有限$\muI$值下继续计算，但是最近的研究表…

Transformer最初是为自然语言处理（NLP）任务引入的，但很快被大多数深度学习领域采用，包括计算机视觉。它们测量输入令牌对（对于文本字符串而言，是单词；对于视觉Transf…

本文提出了一种新颖的方法，用于研究红巨星支（TRGB）尖端I波段星等$M_I$对恒星物理输入的灵敏度。我们计算了近125,000个不同质量、初始氦丰度和金属丰度的理论恒星模型，并训…

运动预测是自主驾驶系统中的关键模块。由于多源输入的异构性、代理行为的多模态性以及需要现场部署的低延迟，这个任务极具挑战性。为了应对这些困难，本文提出了一种新型的以代理为中心的模型，…

在电子显微镜（EM）中准确地分割三维线粒体实例是一个具有挑战性的问题，也是对其分布和形态进行经验分析的先决条件。大多数现有方法采用三维卷积来获取代表性特征。然而，这些基于卷积的方法…

在这项工作中，我们介绍了CC3D，一种有条件的生成模型，它可以根据2D语义场景布局综合复杂的3D场景，并使用单视角图像进行训练。不同于大多数现有的3D GANs只能应用于对齐的单个…

向多指机器人教授灵巧性一直是机器人领域长期面临的挑战。在这个领域中最显著的工作集中在学习控制器或策略，这些控制器或策略要么基于视觉观察，要么基于从视觉中得出的状态估计。然而，这样的…

自动驾驶需要全面理解周围环境以进行可靠的轨迹规划。之前的研究依赖于密集的光栅场景表征（例如，代理人占用和语义地图）来执行规划，这是计算密集型的，并且缺少实例级别的结构信息。本文提出…