cvpr2017：RSVP

1、简单介绍

这个框架主要应用场景是更智能的视频监控。主要贡献是利用long term和short term的时序信息来预测当前帧。框架分割的主要对象是人，将图像中的人物分割成头发、脸、大衣、裤子、包等小的分类，共13种分类。分割效果在同种类型的框架中排名第一。

2、RSVP框架

cvpr2017：RSVP

网络的输入是第t-s、t-l、t张图片。首先用faster rcnn将图片中的目标区域检测出来，然后进入分割的子网络，得到分割结果Pt-s和Pt-l。三个子网络的权值共享。

之后分别对第t-l、t张和第t-s、t张得到的特征做光流，得到Ft,t-s,Ft,t-l。将得到的结果做Temporal Fusion，对第t张得到的分割结果进行处理，得到最后的结果。

3、实验

训练时每段视频标一帧，测试视频标5帧。得到的结果在同类比赛中指标排名第一。

4、总结

论文的研究重点并不是跟踪，但这个网络为跟踪提供了一种思路。