3D场景理解在基于视觉的自动驾驶中发挥着至关重要的作用。虽然大多数现有方法侧重于3D目标检测,但是它们很难描述任意形状和无限类别的现实世界对象。为了更全面地感知3D场景,在本文中,我们提出了一种名为SurroundOcc的方法,利用多摄像机图像预测3D占用情况。我们首先为每个图像提取多尺度特征,并采用空间2D-3D注意力将它们提升到3D体积空间。然后,我们应用3D卷积逐步上采样体积特征,并在多个级别上施加监督。为了获得密集的占用预测,我们设计了一条流水线来生成具有扩展性的占用地面真值,而无需扩展性的占用注释。具体来说,我们分别融合动态物体和静态场景的多帧LiDAR扫描。然后,我们采用Poisson重建填补空洞,并将网格体素化以获得密集的占用标签。在nuScenes和SemanticKITTI数据集上进行的大量实验表明了我们方法的优越性。代码和数据集可在https://github.com/weiyithu/SurroundOcc上获得。
论文链接:http://arxiv.org/pdf/2303.09551v1
更多计算机论文:http://cspaper.cn/