SFFAI 27 | 高君宇：图神经网络在视频分类中的应用

讲者介绍

高君宇：中国科学院自动化研究所博士生，导师为徐常胜研究员。研究方向为基于深度学习的视频理解与应用。在IEEE Transaction on Image Processing（TIP）、CVPR、AAAI、ACM MM等CCF推荐的A类期刊、会议中发表多篇一作论文。获得了国家奖学金、中国科学院大学三好学生、三好学生标兵、百度奖学金、必和必拓奖学金、Rokid奖学金等。

报告题目：I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs

报告摘要：随着社交网络与在线视频平台的兴起，网络上每天都在涌现大量的视频，伴随着这些视频而来的是与日俱增的行为类别。虽然有监督的行为分类方法取得了显著的进展和很好的效果，但是这些方法依赖于大量的标注样本，而标注这些数据是极为耗时耗力的。因此，零样本视频分类的方法应运而生。目前，通过自动挖掘潜在概念（如行为、属性等）进行零样本视频分类的方法获得了极大的成功。但是，大多数现有方法只利用了视频的视觉信息而忽视了对这些概念之间的显式关系建模。因此，我们提出了一个基于知识图谱的端到端零样本行为识别框架，其可以联合建模行为-属性、属性-属性、行为-行为之间的关系。具体的，我们设计了一个双支图卷积神经网络，其包括一个分类器支和一个实例支。分类器支输入所有概念的词向量并产生对应概念的分类器。实例支将属性的词向量和和每个视频实例的属性得分映射到一个特征空间中。最后，学习到的分类器在产生的属性特征上进行评估，并通过一个分类损失进行端到端地整体优化。为了考虑视频的时序建模，我们还引入了一个自注意力模型来有效利用视频的时序信息。实验结果表明提出方法具有很好的效果。

Spotlight：

基于双支图神经网络的视频零样本识别方法；
结合知识图谱与图神经网络，对概念间关系进行高效建模。

论文推荐

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
推荐理由：结合知识图谱与图神经网络进行零样本图片分类的开创之作，发表在CVPR2018。本文通过知识图谱信息将物体类别构造成图，每个节点输入对应类别的词向量信息，输出该类别对应的分类器参数。通过使用已知类别预训练好的分类器进行二次回归优化，从而把分类器学习泛化到未知类上。
Rethinking Knowledge Graph Propagation for Zero-Shot Learning
推荐理由：上一篇文章的改进版，被CVPR2019接收。主要改进有如下几个方面：
1. 将局部信息传播改为密集信息传播（Dense Graph Propagation, DGP），减少了GCN 的层数；
2. 根据连接边的远近引入attention机制进行加权计算；
3. 根据graph信息进行微调。
Multi-Label Zero-Shot Learning with Structured Knowledge Graphs
推荐理由：使用知识图谱与图神经网络进行多标签零样本学习的开创之作，发表在CVPR2018。本文在语义类别空间中学习信息传递机制，从而可以建模已知类和未知类之间的相互依赖关系。

参考资料

https://www.bilibili.com/video/BV1r4411L7WR/
https://bbs.sffai.com/d/68