本文介绍: 提出了一种新的 3D 物体检测器,具有值得信赖的深度估计称为 BEVDepth用于基于相机的鸟瞰 (BEV) 3D 物体检测BEVDepth通过利用显式深度监控解决深度估计不足的问题,还引入一个具有相机意识的深度估计模块,以促进深度预测能力设计一个新颖的深度细化模块,以对抗不准确特征投影所带来的副作用提出了一种新的网络架构名为BEVDepth,用于准确预测3D物体检测的深度首先研究现有3D物体检测器的工作机制,并揭示了它们中的不可靠深度。

论文链接

BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection

0. Abstract

1. Intro

本文问题检测器中学到的深度质量是否真正满足精确的3D物体检测的要求 ?

Fig.1 深度估计结果在Liftsplat检测器和BEVDepth中得以实现虚线框突出显示了Liftsplat检测器在通常情况下能够进行”相对“准确的深度预测区域,通常是物体和地面之间连接区域

2. Related Work

基于视觉三维体检

基于LiDAR的3D物体检

深度估计

3. 深入研究 LSS 中的深度预测

3.1 基本检测器的模型体系结构

  • 基于 Liftsplat 的检测器将 LSS 中的分割替换为 CenterPoint 的3D检测头

    其架构由四个部分组成

    • 提取 2D 特征的图像编码器

      F

      2

      d

      =

      {

      F

      i

      2

      d

      R

      C

      F

      ×

      H

      ×

      W

      ,

      i

      =

      1

      ,

      2

      ,

      .

      .

      .

      ,

      N

      }

      F^{2d} = {F^{2d}_i∈ mathbb{R}^{C_F ×H×W} , i = 1, 2, …, N}

      F2d={Fi2dRCF×H×W,i=1,2,,N} 来自 N 个视图的输入图像

      I

      =

      {

      I

      i

      ,

      i

      =

      1

      ,

      2

      ,

      .

      .

      .

      ,

      N

      }

      I = {I_i, i = 1, 2, …, N}

      I={Ii,i=1,2,,N},其中

      H

      H

      H

      W

      W

      W

      C

      F

      C_F

      CF 分别代表特征的高度宽度通道

    • 深度网络:根据图像特征

      F

      2

      d

      F^{2d}

      F2d 估计图像深度

      D

      p

      r

      e

      d

      =

      {

      D

      i

      p

      r

      e

      d

      R

      C

      D

      ×

      H

      ×

      W

      ,

      i

      =

      1

      ,

      2

      ,

      .

      .

      .

      ,

      N

      }

      D^{pred} = {D^{pred}_i∈ mathbb{R}^{C_D×H×W} , i = 1, 2, …, N}

      Dpred={DipredRCD×H×W,i=1,2,,N},其中

      C

      D

      C_D

      CD 代表深度箱的数量

    • 视图变换:使用方程式将

      F

      2

      d

      F^{2d}

      F2d 投影到 3D 表示

      F

      3

      d

      F^{3d}

      F3d 中,然后将它们汇集到一个集成的 BEV 表示

      F

      b

      e

      v

      F^{bev}

      Fbev

      F

      i

      3

      d

      =

      F

      i

      2

      d

      D

      i

      p

      r

      e

      d

       

      ,

          

      F

      i

      3

      d

      R

      C

      F

      ×

      C

      D

      ×

      H

      ×

      W

      (1)

      F^{3d}_i = F^{2d}_i ⊗ D^{pred}_i , F^{3d}_i ∈ mathbb{R}^{C_F ×C_D×H×W} tag{1}

      Fi3d=Fi2dDipred ,    Fi3dRCF×CD×H×W(1)

    • 3D 检测头:预测类别、3D 框偏移和其他属性

3.2 Making Lift-Splat Work Is Easy

3.3 Making Lift-Splat Work Well Is Hard

深度不准确

深度模块过拟合

BEV语义不精确

4. BEVDepth

BEVDepth是一种带有可靠深度的新型多视角3D检测器。它利用相机感知深度预测模块(DepthNet)上的显式深度监督结合未投影视锥特征上的新型深度细化模块,实现这一目标

Fig. 4 BEVDepth框架。图像主干从多视图图像中提取图像特征。深度网络以图像特征作为输入生成上下文和深度,并得到最终的点特征。体素池将所有点特征统一到一个坐标系统中,并将它们池化到BEV特征图上。

明确的深度监督

相机感知的深度预测

深度细化模块

  • 为了进一步提高深度质量设计了一个新颖的深度细化模块
    • 首先将

      F

      3

      d

      F^{3d}

      F3d

      [

      C

      F

      ,

      C

      D

      ,

      H

      ,

      W

      ]

      [C_F,C_D,H,W]

      [CF,CD,H,W] 重塑为

      [

      C

      F

      ×

      H

      ,

      C

      D

      ,

      W

      ]

      [C_F × H,C_D,W]

      [CF×H,CD,W],并在

      C

      D

      ×

      W

      C_D × W

      CD×W 平面堆叠几个3×3的卷积层。最后将其输出重塑回来,并输入到后续的 Voxel/Pillar Pooling 操作

  • 一方面,当深度预测置信度低时,深度细化模块可以沿深度轴聚合特征
  • 另一方面,当深度预测不准确时,深度细化模块可以在理论上将其细化到正确位置,只要接受域足够大即可
  • 深度细化模块赋予了 View Transformer 阶段一个校正机制,使其能够修正那些摆放不当的特征

5. Experiment

5.1 实验设置

数据集和指标

实施细节

5.2 消融实验

组件分析

表4 Depth Loss(深度丧失),Camera-awareness(相机感知)和Depth Refinement Module(深度细化模块)对nuScenes验证集进行消融研究。DL,CA,DR和MF分别表示Depth Loss(深度丧失),相机感知,深度细化模块和多帧

  • 基准 BEVDepth 获得28.2%的mAP和32.7%的 NDS,添加深度损失将 mAP 提高了2.2%
  • mATE 略微降低 0.21,因为原始的BEVDepth已经在检测损失的帮助下部分学习了深度预测。将相机参数建模到 DepthNet 中进一步减小了mATE 0.41,揭示了相机感知的重要性
  • 深度细化模块将mAP提高了0.8%

深度损失

深度细化模块

5.3 基准测试结果

高效的体素池化

多帧融合

nuScenes 验证

表7 nuScenes验证集的比较

nuScenes 测试

表8 在 nuScenes 测试集上的比较。L表示激光雷达(LiDAR),C表示相机(camera)。BEVDepth 使用预训练的VovNet作为骨干网络。输入图像的分辨率设置为640×1600。BEVDepth

^{†}

使用 ConvNeXT 作为骨干网络。

6. 总结

  • 提出了一种新的网络架构,名为BEVDepth,用于准确预测3D物体检测的深度
  • 首先研究现有3D物体检测器的工作机制,并揭示了它们中的不可靠深度
  • 在BEVDepth中引入了相机感知深度预测和深度细化模块,并使用显式深度监督,使其能够生成稳健的深度预测
  • BEVDepth获得了预测可信深度的能力,并获得了显着的改进

原文地址:https://blog.csdn.net/KrMzyc/article/details/134669123

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_44034.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注