我们介绍了一种地面行人世界模型——计算模型,它可以预测行人如何在观察者周围的人群地面上移动,但只需使用观察者的自我中心视角。我们的模型 InCrowdFormer 充分利用了变形器…
Read MoreFateZero: 将注意力融合于零样本文本视频编辑
基于扩散的生成模型在基于文本的图像生成方面取得了显着的成功。然而,由于其在生成过程中包含巨大的随机性,因此在真实世界的视觉内容编辑中仍然具有挑战性,特别是在视频中。在本文中,我们提…
Read More深度度量学习用于无监督遥感变化检测
遥感变化检测(RS-CD)旨在从多时相遥感图像(MT-RSIs)中检测出相关的变化,这有助于各种遥感应用,如土地覆盖、土地利用、人类发展分析和灾害响应。现有的RS-CD方法的表现归…
Read More为何多组分金属的EXAFS分析如此困难?使用X射线吸收光谱测量复杂浓缩合金中有序性的挑战和机遇。
短程有序是多组分合金、复杂浓缩合金(CCAs)性质的一个关键驱动因素。扩展X射线吸收精细结构(EXAFS)是一种强大的技术,非常适合量化这种短程有序。然而,CCAs具有一些特征,使…
Read MoreSemDeDup:通过语义去重,在网络规模下实现高效数据学习
机器学习的进展很大程度上由数据的大幅增长推动。然而,像LAION这样的大规模网络数据集在除了精确重复项的搜索之外基本上没有被筛选,可能留下了很多重复的数据。在此,我们介绍SemDe…
Read MoreDiffusion-HPC:利用逼真的人类生成合成图像
近期的文本到图像生成模型表现出了惊人的能力,可以生成高保真度和逼真的图片。然而,尽管视觉效果卓越,这些模型经常难以保留生成物中的合理人类结构。由于这个原因,虽然生成模型通过生成大量…
Read More重新审视Vainshtein屏蔽技术以进行快速的N体模拟
本文重新审视了R. Scoccimarro 在 \cite {Scoccimarro:2009eu} 中提出的在N体模拟中纳入 Vainshtein 屏蔽机制的方法。我们进一步扩展…
Read MoreSurroundOcc:用于自动驾驶的多摄像头3D占据预测技术
3D场景理解在基于视觉的自动驾驶中发挥着至关重要的作用。虽然大多数现有方法侧重于3D目标检测,但是它们很难描述任意形状和无限类别的现实世界对象。为了更全面地感知3D场景,在本文中,…
Read MoreLERF:语言嵌入式辐射场
人类使用自然语言描述物理世界,基于广泛的属性,如视觉外貌、语义、抽象联系或可操作性,来引用特定的三维位置。在本文中,我们提出一种名为“语言嵌入光辐射场”(Language Embe…
Read MorePartNeRF:在没有3D监督的情况下生成能够感知部分且可编辑的3D形状
生成模型和隐式表示方面的令人印象深刻的进展,促成了能够生成高质量3D形状的方法。然而,能够局部控制和编辑形状是另一个至关重要的属性,可以解锁多种内容创建应用。利用零件感知模型可以实…
Read More