PDB-ConvLSTM: 用于视频显著性目标检测的金字塔扩张较深的ConvLSTM网络

本文出自论文Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection, 主要提出了一个视频显著性目标检测模型，由PDC模块和PDB-ConvLSTM模块组成。

本文提出了一个快速的视频显著性目标检测模型，它基于一个新的递归网络架构，被命名为PDB-ConvLSTM。一个金字塔扩张卷积（PDC）模块被首次设计用于在多尺度同时提取空间特征，这些空间特征被连接起来，并被输入到一个扩展的DB-ConvLSTM结构来学习时空信息。进一步讨论伴有一个类PDC结构的DB-ConvLSTMs，通过采用几种扩张的DB-ConvLSTMs来提取多尺度的时空信息。

一、简介

视频显著性检测旨在发现最吸引人注意力的每个视频帧中最感兴趣的部分。在视频显著性检测的研究被分为两类：眼动预测来定位人眼的关注点、显著性目标检测来高亮最显著的目标。为了在视频显著性检测中应用深度学习技术，有两个问题需要被考虑：第一个问题是描述时间和空间信息，然后如何将它们结合起来；第二个问题是数据，一个足够大、密集标签的视频显著性训练集是必要的，但很难获得。
为了解决上述问题，我们的模型基于一个卷积LSTM结构（ConvLSTM），它可以获取视频序列的长短期记忆，从而获得时空信息来有效融合时空特征。为了鼓励在LSTM单元间双向交换信息，我们提出了一个较深的双向ConvLSTM结构（DB-ConvLSTM）来以一种级联和较深的方式学习时间特征。后向层的ConvLSTM单元被建立在前向层上，而不是直接连接到输入层上。前向ConvLSTM单元每个关联到一个特别的输入帧，可以与后向层交换它们的序列知识。我们还引入了一个多尺度接收域模块–金字塔扩张卷积（PDC），从而来获得更多的空间细节。
在模型的训练方面，除了视频显著性数据，我们还利用大量静态显著性数据来训练我们的模型。通过这种方式，我们的网络能够捕捉到不同的目标外观，它们对视频显著性预测很重要。我们进一步展示到所提出的视频显著性模型，配有一个CRF分割模块，在两个流行的视频分割基准数据集（DAVIS和FBMS）上获得最好的性能，展示了我们模型的高可用性。

二、相关工作

图像/视频显著性目标检测：卷积视频显著性检测方法提取时间和空间特征，然后将它们融合在一起来产生一个时空显著性映射。
无监督视频分割：无监督视频主对象分割是与我们的方法最相关的视频分割主题，其目的是利用对象级信息（如对象建议）和各种启发式方法提取视频序列中的主对象。这些模型有类似的目标与视频突出的对象检测，除了它们寻求得到每个视频帧的二进制前/背景掩码。

三、方法

所提出的视频显著性目标检测模型由两个关键成分组成，第一个是金字塔扩张卷积（PDC）模块，被用来明确地在多尺度上提取空间显著性特征，这个主要通过并行的不同采样比例的扩张卷积层来实现。第二个是金字塔扩张双向ConvLSTM（PDB-ConvLSTM），以一种级联的双向特征学习过程来提高。PDB-ConvLSTM将来自PDC模块学习到的空间特征作为输入，然后输出所提高的时空显著性表示，来作为最终的视频显著性目标预测。
使用PDC模块的空间显著性学习：我们利用了一个PDC模块，它由一组不同扩张比例的扩张卷积层组成，用来强调多尺度空间显著性表示学习。令 $F\in R^{(W*H*M)}$ ，扩张卷积层的核为 $C_k\in R^{c*c*C}$ ，其输出特征映射$T_k =C_k \circledast F $ 。如果我们从适当的距离和适当的空间环境来看，一个地区将是相当突出的。之后多尺度的空间特征 $\{T_k\}^K_{k=1}$ 被连接到一起，接着被输入到PDB-ConvLSTM，于是这个网络能够自动学习到尺度的重要性（例如从一个适当的距离学习显著性特征）。受激励于残差连接，我们将原始输入 $F$ 和扩张输出 $T$ 连接在一起，最后的输出特征 $X\in R^{W\times H\times (KC+M)}$ ， $X=[F,T_1,T_2,...,T_K]$ 。
使用PDB-ConvLSTM模块的时空显著性学习：给定一个输入视频序列 $\{I_t\}^T_{t=1}$ ，先使用PDC模块来产生一个对应的多尺度空间显著性特征序列 $\{X_t\}^T_{t=1}$ ，接着这些空间特征被输入到一个修改过的ConvLSTM结构（PDB-ConvLSTM）中，来解释视频帧的空间性质，将时间和空间特征自动混合在一起。PDB-ConvLSTM以两种方法来被提高：首先使用一个更深的和级联的学习过程来代替，在前向过程学习到的时空特征上建立后向LSTM；合并金字塔扩张卷积到LSTM上来从多尺度上学习显著性特征。
ConvLSTM：它将卷积运算引入到input-to-state和state-to-state的转变中，保留空间信息和建模时间依赖度。于是它可以被应用于许多时空像素级任务上，例如动态视觉注意力预测，视频超分辨率。ConvLSTM单元由一个记忆单元 $c_t$ ，一个输入门 $i_t$ ，一个输出门 $o_t$ ，一个遗忘门 $f_t$ 。记忆单元 $c_t$ 作为状态信息的累加器，被自参数控制门进行存取、更新和清除。当一个输入到达时，若输入门**新的数据将会被累加到记忆单元；同样地，如果遗忘门 $f_t$ 被打开先前的单元状态 $c_{t-1}$ k可以被遗忘。最新的记忆单元值 $c_t$ 是否被转变为最终状态 $h_t$ 被输出门 $o_t$ 来控制。在视频序列中，来自前向和后向帧的信息对于预测视频显著性是重要且互补的，于是双向ConvLSTM（B-ConvLSTM）用于在双向流中捕捉时间性质。 $Y_t=tanh(W^{H^f}_y*H^f_t+W^{H^b}_y*H^b_{t-1})$
DB-ConvLSTM：它有两个层，一个是浅的前向层，另一个是较深的后向层。在前向层的ConvLSTM单元接收空间特征映射 $\{X_t\}^T_{t=1}$ 作为输入，然后输出前向序列特征映射 $\{H^f_t\}^T_{t=1}$ 。较深的层由后向单元组成，接收来自前向层的输出特征作为输入。最终前向特征和后向特征被结合在一起来作为最终输出： $\{Y_t\}^T_{t=1}$ 。通过这样做，较深的时空特征可以被后向单元提取得到。
PDB-ConvLSTM：来自PDC模块的输出结果被输入到几个并行的DB-ConvLSTMs上，其卷积操作被扩张卷积操作所替代，不同的扩张因子被采用。它可以利用来自不同接收域的不同特征来获取更多互补性的时空特征。
网络架构细节：有一个PDC模块和PDB-ConvLSTM模块组成，其中PDC模块由四个并行的扩张卷积层组成，其输入来自ResNet50处理过的特征映射，最终输出和原始输入进行结合，得到最终的输出特征映射。PDB-ConvLSTM模块由两个DB-ConvLSTMs组成，对于每个帧，两个DB-ConvLSTM分支的输出结果被进一步连接来作为多尺度的时空显著性特征。
损失函数：令 $G\in \{0,1\}^{473\times 473}$ 表示实际显著性映射， $S\in [0,1]^{473\times 473}$ 表示预测的显著性映射，总体损失函数为 $L(S,G)=L_{cross_entropy}(S,G)+L_{MAE}(S,G)$ ，其混合损失函数分别表示交叉熵损失函数和MAE损失函数， $L_{cross_entropy}(S,G)=-\frac{1} {N}\sum_{i=1}^N[g_ilog(s_i)+(1-g_i)log(1-s_i)]$ ，

$L_{MAE}(S,G)=\frac{1}{N}\sum_{i=1}^{N}|g_i-s_i|$ 。
训练设置：训练过程有三个步骤：第一我们预训练空间学习部分（包括PDC模块和基础网络），其图像显著性训练集为MSRA10K和DUTOMRON，视频数据集为DAVIS数据集，SGD算法的初始学习率为 $10^{-8}$ 。第二我们设置时空学习部分的学习率为 $10^{-6}$ ，然后使用以上静态和视频数据来训练整个模型。最后我们固定空间学习部分的权重，并对只含DAVIS数据集的时空学习部分来微调。

四、实验

有两组实验被执行，第一个用来检测所提出模型的性能，即视频显著性目标检测，第二个用来评估在未监督视频目标分割上所提出模型的有效性。
为了量化评估，我们应用三种广泛使用的准则，分别为：PR-curve，F-measure，MAE score。总体来看，我们的模型一致地在各种具有挑战性的场景下，始终能够准确地生成精确的显著性目标估计。

五、结论

本文提出了一个深度视频显著性目标检测模型，其有两个关键成分组成：PDC模块和PDB-ConvLSTM模块。在PDC模块中，一组并行的扩张卷积被用来提取多尺度的空间特征（不同接收域）。在PDB-ConvLSTM模块中，卷积ConvLSTM被更深的信息提取和并行的两个扩张ConvLSTMs来扩展，从而提取不同尺度的序列特征。所提出的模型生成高质量的显著性映射，其实时处理速度为20fps。这个实验也证明了所提出模型对于未监督分割任务的适用性，可以获得最大精度的分割结果。

秒客网