pdf code

Associative Embedding: End-to-End Learning for Joint Detection and Grouping

这篇论文对我来说是CornerNet的前置.两篇也是同一个作者。

Associative Embedding 简介

这篇论文使用1D embedding,目的是训练网络对来自同一个group的detection输出相似的tags,different tags for detection。

image

Stacked Hourglass Architecture

hourglass结构可以在这篇论文看到也在CornerNet这篇论文用过,大家稍有不同,不过总体思路一致。

多人肢体估计

本文使用前面的backbone预测每一个pixel的detection score for each joint("left writst", "right shoulder"),

要进一步完成整个keypoint detections。如果有个关节,则输出个channel,其中个作为detection的heatmap, 个作为grouping的 tags。

整个cost:

其中是pixel 对应的tag value。,其中是第个人的第个身体关节的pixel位置.

inference时的流程

首先对第一个关节,给一个阈值,然后做non-max suppression.得到各个人物的初始估计。

之后对其他每一个关节,做一个maximum matching,同时基于tag value以及detection score。