SFFAI 135 | 视频预测专题《常峥：一种动作感知的视频预测方法》

SFFAI论坛网站已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI135】获取讲者PPT资料，入交流群，推荐论文下载。

视频预测是使用深度学习的技术对已有的视频帧进行外插预测，在很多媒体任务中都有很好的应用前景。目前主流的方法主要利用LSTM以及GRU联合卷积神经网络对视频帧进行渐进式预测，但是在这过程中视频中的时域信息（动作信息）以及空域信息（纹理信息）仅仅会被简单的融合，无法做到互相感知。本期我们邀请到了中科院计算所的常峥同学，他提出了一种运动感知的视频预测方法解决了此类问题。

讲者介绍

常峥：中国科学院计算技术研究所博士在读，主要研究方向为视频理解，视频表征学习，目前已在NeurIPS等国际会议上发表论文4篇。

报告题目：一种动作感知的视频预测方法

报告摘要：我们提出了一种运动感知的视频预测方法，我们创新性地利用空域信息去监督时域信息的融合过程，使得预测单元可以很好的感知到每一时刻视频帧的纹理变化，从而预测出更加可靠的动作信息，我们在多个公开数据集上进行了测试，并取得了很好的效果。

论文题目：MAU: A Motion-Aware Unit for Video Prediction and Beyond

分享亮点：

本文提出利用时空域间的相关性信息进行视频预测；
空域信息可以监督时域信息的融合过程，时空域信息可以互相感知；
本文提出的预测单元可以很方便地扩展到其他预测模型，扩展性较好。

论文推荐

Unsupervised Learning of Video Representations using LSTMs [Srivastava, et al.]
第一次用LSTM进行视频预测任务，开创了先河
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting [Shi, et al.]
第一次将卷积神经网络融合进LSTM中进行视频帧的处理，在节省计算量的同时也做到了对视觉信息更好的感知
PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs [Wang, et al.]
将时域信息和空域信息同等看待，将长短期记忆的思想也扩展到空域
Eidetic 3d LSTM: A Model for Video Prediction and Beyond [Wang, et al.]
将3D卷积融合进LSTM之中，进一步提升了模型对时空信息的表达能力
Efficient and Information-Preserving Future Frame Prediction and Beyond [Yu, et al.]
设计了一种可逆的编解码器来对视频进行特征图提取，在视频预测的过程中可以很好的保护视觉信息
MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions [Wu, et al.]
将动作信息分解为长期运动以及瞬时运动，并设计了一种预测单元对两种运动模式分别建模

参考资料

https://www.bilibili.com/video/BV1yb4y1x7hQ/