pdf code

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image

这篇论文采用了基于几何与相机的特性的方式对人的肢体进行3D detection,pose estimation的输出是关节坐标,本文进一步需要计算人与相机的距离。代码分两部分开源 分别是rootnetposenet.

总体流程

image

流程分为三个网络,第一个网络为DetectNet,简单来说就是two-stage object detection的proposal阶段,采用的res网络以及roialign操作皆为常规。

第二个网络为rootNet主要负责预测人体在3维空间中的位置,在下文讲解。

第三个网络为PoseNet,采用的类似于常规的pose-estimation网络,输出的是小图片中人体各个关节的heatmap。

RootNet

rootnet主要观测的是图片中2D框大小与深度的一个相关性 image

网络结构如下,

image 其中为相机内参的, 分别为实际面积大小与图片中的大小。为一个估计值,网络的责任在于估计这个k值.