aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

SFFAI 135 | 视频预测专题《常峥:一种动作感知的视频预测方法》

SFFAI论坛网站已开放注册,详情点击查看:https://bbs.sffai.com/d/312

关注公众号:【人工智能前沿讲习】,回复【SFFAI135】获取讲者PPT资料,入交流群,推荐论文下载。

视频预测是使用深度学习的技术对已有的视频帧进行外插预测,在很多媒体任务中都有很好的应用前景。目前主流的方法主要利用LSTM以及GRU联合卷积神经网络对视频帧进行渐进式预测,但是在这过程中视频中的时域信息(动作信息)以及空域信息(纹理信息)仅仅会被简单的融合,无法做到互相感知。本期我们邀请到了中科院计算所的常峥同学,他提出了一种运动感知的视频预测方法解决了此类问题。


讲者介绍

常峥:中国科学院计算技术研究所博士在读,主要研究方向为视频理解,视频表征学习,目前已在NeurIPS等国际会议上发表论文4篇。

报告题目:一种动作感知的视频预测方法

报告摘要:我们提出了一种运动感知的视频预测方法,我们创新性地利用空域信息去监督时域信息的融合过程,使得预测单元可以很好的感知到每一时刻视频帧的纹理变化,从而预测出更加可靠的动作信息,我们在多个公开数据集上进行了测试,并取得了很好的效果。

论文题目:MAU: A Motion-Aware Unit for Video Prediction and Beyond

分享亮点:

  1. 本文提出利用时空域间的相关性信息进行视频预测;
  2. 空域信息可以监督时域信息的融合过程,时空域信息可以互相感知;
  3. 本文提出的预测单元可以很方便地扩展到其他预测模型,扩展性较好。

论文推荐

  1. Unsupervised Learning of Video Representations using LSTMs [Srivastava, et al.]
    第一次用LSTM进行视频预测任务,开创了先河

  2. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting [Shi, et al.]
    第一次将卷积神经网络融合进LSTM中进行视频帧的处理,在节省计算量的同时也做到了对视觉信息更好的感知

  3. PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs [Wang, et al.]
    将时域信息和空域信息同等看待,将长短期记忆的思想也扩展到空域

  4. Eidetic 3d LSTM: A Model for Video Prediction and Beyond [Wang, et al.]
    将3D卷积融合进LSTM之中,进一步提升了模型对时空信息的表达能力

  5. Efficient and Information-Preserving Future Frame Prediction and Beyond [Yu, et al.]
    设计了一种可逆的编解码器来对视频进行特征图提取,在视频预测的过程中可以很好的保护视觉信息

  6. MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions [Wu, et al.]
    将动作信息分解为长期运动以及瞬时运动,并设计了一种预测单元对两种运动模式分别建模


参考资料

https://www.bilibili.com/video/BV1yb4y1x7hQ/