发布于2024-10-24 阅读(0)
扫一扫,手机访问
在自动驾驶领域,一辆自动驾驶汽车通常配备多种传感器,例如激光雷达传感器用于采集点云数据,相机传感器用于采集图像数据等。由于激光雷达传感器能够更准确地获取待检测物体的几何和位置信息,因此基于点云的感知算法模型得以迅速迭代和发展。目前,基于点云的感知算法主要分为以下两大类
尽管目前广泛采用基于Pillar的算法模型,因为其部署方便、精度高,但是目前这些模型主要使用随机初始化的方法对2D卷积神经网络进行初始化。这导致很多在ImageNet上预训练的2D主干网络并没有被有效利用,造成资源浪费。另外,目前来看,基于点云的感知算法模型尺寸放大并没有导致精度上升的现象。而在2D检测任务中,预训练的主干网络和更大尺寸的主干网络在大规模数据集上都展现出更好的优势
所以,今天解析的这篇论文就是要探索2D主干网络的规模大小和预训练对于Pillar-based的3D目标检测器的性能影响。
以下是论文的arxiv链接:https://arxiv.org/pdf/2311.17770.pdf
首先,让我们来介绍PillarNeSt算法模型的整体框架结构,如下图所示
PillarNeSt算法模型的网络框图
通过观察上图可知,PillarNeSt采用了点云感知算法中经典的架构模型(CenterPoint-Pillars)作为基线模型。然而,为了构建一个更强大的基线模型,论文作者对原有的PointPillars算法进行了修改。为了使读者更清楚地了解每个部分的修改位置,首先简单列举了CenterPoint-Pillars算法模型的几个基础模块
接下来,我们将根据前面提到的每个基础模块,逐步进行修改和增强,最终构建出PillarNeSt算法模型
在CenterPoint-Pillars算法模型的原始版本中,Pillar Encoder模块首先使用多层感知机结构提取点云数据的特征,然后采用Max Pooling层提取Pillar特征。然而,在本文中,作者认为只使用Max Pooling层会导致信息的丧失。基于此,作者在原有的Max Pooling层基础上添加了一个Mean Pooling层,以获取更多有用的信息。此外,作者还引入了每个点相对于几何中心高度的偏移量作为模块的输入,以补偿在Z轴上的信息丢失
“
在这篇论文中,我们同时使用最大池化和平均池化来保留更多的信息。此外,我们还引入了点的高度偏移,相对于几何中心的输入,以补偿在z轴上的信息损失
“
一些最近的研究认为,通过使用更大的卷积核可以有效地实现较大的有效感受野。此外,更大的感受野有助于提高点云检测器的能力
我们的骨干网络设计去除了干扰因素,并避免在第一阶段块中进行下采样。这个战略选择确保了输入特征的原始分辨率的保持
我们的大量实验表明,在早期阶段增加块的数量比在后期阶段增加更多块的效果更好
we adopt a simple way and add one more stage (named stage-5) on top of stage-4, which contains only one or two ConNeXt blocks. The block number of stage-5 can be scaled up based on the model size. The output of added stage-5 is served as one of the multi-scale inputs of the neck network.
在本文中,论文的一个重要目标是设计出一组可调整的网络结构模型,以在参数量和精度之间取得平衡。作者提出了一系列2D主干网络,从PillarNeSt-Tiny到PillarNeSt-Large,以满足不同参数量和精度的需求。下图展示了不同尺度的网络模型配置
不同PillarNeSt模型的参数配置情况
通过上图可以看出,不同版本的模型共用相似的模型结构。每个模型包括五层结构,上文已经提到过的第一层去掉了降采样层,对于剩余的其他层都会进行降采样的操作
在论文中,还为不同规模的主干网络模型提供了更加简便的表示方法,如下图所示
对于不同的PillarNeSt模型,进行通道数和block数的统计
为了达到作者的另一个目标,即利用在ImageNet上预训练的2D主干网络的优势,同时论文中的主干网络是基于ConvNeXt进行修改的,因此无法直接将原有的在ImageNet上预训练的ConvNeXt迁移到新设计的网络结构上。为此,论文采用了两种参数初始化方法,分别是基于stage view和micro view的初始化方法
在nuScenes和Argoverse2数据集上对PillarNeSt算法模型进行了有效性测试。首先,我们展示了在nuScenes数据集上的结果
根据实验结果显示,PillarNeSt-Large算法模型在最大参数量下实现了64.3的mAP,相比其他基于点云的感知算法模型,取得了显著的优势
在Argoverse2数据集中,PillarNeSt的性能表现依然出色,除了在nuScenes数据集上的对比结果之外
从表格结果可以看出,PillarNeSt-Base算法模型在mAP和CDS指标上表现出最优的检测性能,明显优于其他基于点云的感知算法模型
通过上述实验结果表格,清楚地展示了该方法成功实现了一组可扩展的网络结构。根据具体情况,可以选择不同参数量的算法模型以获得不同的精度效果。针对论文中提出的预训练问题,同样提供了下图所示的实验结果
实验结果已经很好地证明了,论文中设计的网络结构继承了来自ImageNet上预训练得到的知识信息,无论是mAP还是训练损失,加载了预训练模型的效果都优于不采用预训练模型的效果
目前,尽管基于点云的感知算法已经取得了很大的进步,但是针对Pillar-base算法模型中的2D主干网络依旧采用随机初始化的方式,没有使用到来自ImageNet预训练的网络模型,同时基于点云的算法模型也没得到不同尺度规模带来的优势
PillarNeSt是一个很好的解决方案,可以解决上述提到的两个问题。希望这篇解析能对大家有所帮助
原文链接:https://mp.weixin.qq.com/s/NJoAOyTuk9INQRJtJKz__g
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店