LERF:语言嵌入式辐射场

人类使用自然语言描述物理世界,基于广泛的属性,如视觉外貌、语义、抽象联系或可操作性,来引用特定的三维位置。在本文中,我们提出一种名为“语言嵌入光辐射场”(Language Embedded Radiance Fields,LERFs)的方法,将来自像CLIP这样的现成模型的语言嵌入嵌入到NeRF中,从而实现这些类型的开放式语言查询在三维中的应用。LERF通过在训练射线上进行体积渲染CLIP嵌入来学习NeRF中的密集、多尺度语言场,通过在训练视图上监督这些嵌入并平滑底层的语言场来提供多视图一致性。优化后,LERF可以实时交互地提取广泛的语言提示的三维相关性映射,在机器人、理解视觉语言模型和与三维场景交互等方面具有潜在的应用。LERF允许基于提炼的三维CLIP嵌入进行像素对齐、零样本查询,无需依赖于区域提议或掩码,在整个体积中支持长尾开放词汇查询的分层。该项目网站位于https://lerf.io。

论文链接:http://arxiv.org/pdf/2303.09553v1

更多计算机论文:http://cspaper.cn/

Related posts