pdf

Exploiting Event Cameras by Using a Network Grafting Algorithm

这篇paper使用知识蒸馏的概念将RGB图中的目标检测能力传递到event camera的检测中。

NGA structure

image

简单来说是用在更大数据集上预训练好的基于RGB的2D object detection来训练数据量更小的event camera 网络。

Event Camera 的Volume表达方式

将一段时间内的event 流按照时间片均匀地分割为块,形成D个channel,每一个channel将这个时间片内的所有event在对应坐标上求和即可。

本文的时间片划分分为D=3与D=10两种

NGA 训练

image 首先将需要训练的前馈网络分为两层,第一层的输出为,第二层的输出为.

对于两个特征图的差的损失,本文提出直接使用MSE

is based on Gram Matrix

最终:

Style loss with Gram Matrix review

pdf1 pdf2

The description is much clearer in pdf1.

这里为特征图的形状, 指indexing, 为特征图的gram矩阵。下式说明格拉姆矩阵每一个元素的运算。

Style Loss就是两个特征图格拉姆矩阵的差的二范数

code

keras example for style transfer

def gram_matrix(x):
    """
        x.shape = [C, H, W] for 'channels_first'
    """
    assert K.ndim(x) == 3
    if K.image_data_format() == 'channels_first':
        features = K.batch_flatten(x) #[C, H*W]
    else:
        features = K.batch_flatten(K.permute_dimensions(x, (2, 0, 1)))
    gram = K.dot(features, K.transpose(features))
    return gram

Network seperation

对于YOLOv3一共5次下采样,分成6段网络,将第二 or 第三段的输出作为,将第四段的输出作为得到的结果较好(重复实验结果)

Other Stuffs

数据集: The MVSEC Dataset,带有深度的双目RGB+双目event stream数据集。

Event dataset from moving static images: https://www.garrickorchard.com/datasets