Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection

这篇文章主要处理的是two-stage的基于点云的三维检测。

其核心思路如下:

RoI-grid Pyramid

本文首先解释了为什么点云需要考虑proposal之外的点，而图片不需要。 - 点云过于稀疏 - 图片Dense, 且有明确的更大的感受野。

$p_{\text {grid }}^{i j k}=\left(\frac{W}{N_{w}}, \frac{L}{N_{l}}, \frac{H}{N_{h}}\right) \cdot(0.5+(i, j, k))+\left(x_{c}, y_{c}, z_{c}\right)$

已经有了一些keypoint以及RoI, 从上文的公式会得到一系列需要采样的grid点的位置, 对每一个点的附近 $r$ 距离内的所有点的特征进行融合，这个 $r$ 的计算在后面表述，融合的时候有一系列的可能的方法。

Pooling-based Operator: $f_{grid}^{pool} = \underset{i\in\Omega(r)}{\text{maxpool}} (\text{MLP}(\text{cat}([f_i, p_i - p_{grid}])))$
Graph-based Operator: $f_{\text {grid }}^{\text {graph }}=\sum_{i \in \Omega(r)} W\left(Q_{\text {pos }}^{i}\right) \odot V^{i} = \sum_{i \in \Omega(r)} W\left(Q_{\text {pos }}^{i}\right) \odot \text{MLP}(f_i) = \sum_{i \in \Omega(r)} W\left(\text{Linear}(p_i - p_grid)\right) \odot \text{MLP}(f_i)$
Attention-based Operator: $f_{\text {grid }}^{\text {atten }}=\sum_{i \in \Omega(r)} W\left(Q_{\text {pos }}^{i} K^{i}\right) \odot V^{i}$
RoI-grid Attention: $f_{\text {grid }}=\sum_{i \in \Omega(r)} W\left(\sigma_{k} K^{i}+\sigma_{q} Q_{p o s}^{i}+\sigma_{q k} Q_{\text {pos }}^{i} K^{i}\right)$ $\odot\left(V^{i}+\sigma_{v} Q_{\text {pos }}^{i}\right)$

通过 $\sigma$ 的不同取值，可以把本文提出的融合方法变成上面几个方法。这些参数是用全连接层输出的sigmoid函数来自适应学习的。