Summaries for several ICCV 2021 papers

Rank & Sort Loss for Object Detection and Instance Segmentation

pdf code

这篇paper的作者与aLRPLoss是同一个作者,这篇paper在理论以及方法上也是会有一定的连续性。

前文的设定没有考虑在的时候无法解释。且没有只有的时候存在损失,也忽略了类之间的损失。

损失的定义:

计算方法转换为:

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction

pdf code

直觉上来说解决的是低分辨率特征上采样时候的alignment问题。方法上主要是deformable conv and attention.

image image image

AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection

pdf code

这篇paper在 [MonoFlex]等文章的基础上,提出基于车辆的CAD的模型提取对应的keypoints, 这样就不需要对这空白的背景提取车辆包络框的关键点了。

image

image

image

本文实现了目前SOTA的性能。 参考表格

SOTR: Segmenting Objects with Transformers

pdf code

image

这篇paper使用Transformer 处理 Instance Segmentation 如YOLOACT中的分类头,并提供动态卷积核输出不同得instances.

Are we Missing Confidence in Pseudo-LiDAR Methods for Monocular 3D Object Detection?

pdf

这篇文章正面分析了Pseudo LiDAR在validation set上与在test set上巨大的性能偏差.

比较显然的是,depth prediction的训练集和检测的训练集和验证集之间有很大的交集.这使得在一部分的validation set上,预训练的深度预测网络能预测出不真实的高精确度.大幅度地提升了validation的点数.

image

上图说明了现在PLiDAR路径很强的validation结果但是不是特别强的test set结果.

通过描画detection sequence和depth prediction sequence的GIS重叠度.可以得到下图 image

本文提出增加预测3D bounding box的置信度.同时控制在validation training的时候使用的depth prediction split. 得到了更加平衡的PLiDAR结果.

性能和网络结构上的创新并不是很巨大, 但是系统地正面说明了PLiDAR目前在validation set上失真的事实.