How can objects help action recognition?
这篇paper讨论的是action recognition中如何使用物体信息,首先相关工作而言,从序列图片中用transformer做行为识别,需要很多的spatial-temporal tokens, 因而运算量比较大。本文的思路在于,对于行为检测而言,人与物体的交互是非常重要的,如何使用物体信息来增强特征,简化运算,是本文的主要考虑点。
主要框架
系统的输入包含序列图片与序列图片的目标检测结果。使用ViT计算序列图片的patch tokens. 引入 object-guided-token sampling (OGS)用于筛选出前景token,减轻运算量,引入 object-aware attention module (OAM) 用于时序地增强token特征。
OGS算法如上图,利用Center-net的heatmap渲染方法,把检测出来的前景物体不区分具体种类地渲染为单一Channel的heatmap, 每一个patch token区域内heatmap强度之和为这个token属于前景的得分。 这里选择一个固定的 top K 方法选择前景token,剩下的部分用一个很低的比率随机下采样。
得到每一时间帧token特征.使用centernet的heatmap渲染对每一帧、每一个object单独构建一个heatmap ,
把物体的token和特征增强后输入transformer: