Recurrent Vision Transformers for Object Detection with Event Cameras
这篇paper用Recurrent 网络使用event cameras 跑出了较高的检测质量。运行速度也是比较快的。
作者指出,event camera做检测的难点在于需要时间累计信息,但是又需要控制系统整体的运算量。时序的关联与空间需要同时顾虑,却需要控制整体推理时间。这也是本文尝试设计突破的点。
最终总结出了三个比较关键的经验:
- 数据的处理使用时序的、小单位离散累积的event maps
- 使用卷积做初始处理,并且在卷积输入时添加positional embedding, 注入绝对位置信息。适当下采样,控制后续特征大小。
- 使用Multi-Axis Attention.一个是把图片划为一个个block,在block内部transformer, 一个是跨block 用一个dilated 网格取点,dilated网格上的点之间 transformer。
- 使用LSTM而不是Conv-LSTM处理时序关系。