Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

这篇paper尝试解决tesla在AI day上描述的一个3D semantic occupancy map prediction. 在学界已经铺开BEV方案的今天，这个任务的难点在于3D voxelized prediction与 image frames之间的attention或者feature transformation占据的显存与运算空间过大。本文尝试利用3D信息的冗余，从预测三维立体feature降维至预测三个相互垂直的三视图Features以控制模型复杂度。

Basic Framework

基本模型描述:

网络输入六张图，使用cnn backbone进行处理。
三个TPV 平面的 query(embedding) 作为起始输入，经过三层 TPV平面与Images的cross attention, 再经过两层 TPV平面之间的cross attention。形成对环境场景的三视图特征描述。
与图片的cross attention。模块整体是deformable attention. 对于一个plane query上的每一个点，在垂直于平面方向采样数个三维点，投影到六个相机上，找到相机上的base reference points. 然后根据plane query -> MLP mapping 输出每个点的偏移值。在图片上采样，并使用attention求和。
平面之间的hybrid attention. 模块整体式Deformable attention. 对于一个plane query上的每一个点，在垂直于平面方向采样数个点，然后投影到其他两个平面特征上，其他与图片的相似。
网络输出的形态，如果要查询单个点的结果，就把单个点投影到三个TPV平面上，取特征，累加之后MLP mapping到语义分割输出。如果要同时输出网格中每一个点，则可以把三个平面broadcast到voxel形态，然后整体MLP mapping同时输出（一般用于可视化）。
对于Lidar Segmentation works,对每一个有标注的雷达点，单独采样其语义分割结果进行监督训练。

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search