SFFAI 103 | 局部监督训练专题《王语霖：局部监督训练：深度神经网络的“浅度”学习方法》

关注公众号：【人工智能前沿讲习】，回复【SFFAI103】获取讲者PPT资料，入交流群，推荐论文下载。

一般而言，深度神经网络以端到端的形式训练。尽管端到端训练在大量任务中都稳定地表现出了良好的效果，但由于其极大的显存开销和难以并行化，执行的效率有待提升。为了解决或缓解上述两点低效的问题，一个可能的方案是使用局部监督学习，即将网络拆分为若干个局部模块（local module），并在每个模块的末端添加一个局部损失，利用这些局部损失产生监督信号分别训练各个局部模块。

讲者介绍

王语霖：清华大学自动化系二年级直博生，导师为吴澄院士和黄高助理教授。此前于北京航空航天大学自动化学院获工学学士学位。研究兴趣为深度学习模型的高效训练和推理方法。在T-PAMI、NeurIPS、ICLR、CVPR等国际一流期刊、会议上发表学术论文8篇。

报告题目：局部监督训练：深度神经网络的“浅度”学习方法

报告摘要：这项工作研究了一种比目前广为使用的端到端训练模式显存开销更小、更容易并行化的深度神经网络训练方法：将网络拆分成若干段、使用局部监督信号进行训练。我们指出了这一范式的一大缺陷在于损失网络整体性能，并从信息的角度阐明了，其症结在于局部监督倾向于使网络在浅层损失对深层网络有很大价值的任务相关信息。为有效解决这一问题，我们提出了一种局部监督学习算法：InfoPro。在图像识别和语义分割任务上的实验结果表明，我们的算法可以在不显著增大训练时间的前提下，将显存开销降低1.72.5倍，并略微提升性能。

Spotlight：

从效率（显存开销及并行化）的角度反思端到端训练范式；
指出了局部监督学习相较于端到端的缺陷在于损失网络性能，并从信息的角度分析了其原因；
在理论上初步提出了解决方案，并探讨了具体实现方法。

论文推荐

经典论文

A fast learning algorithm for deep belief nets ∗
推荐理由：前深度学习时代影响巨大的工作之一，提出采用无监督、逐层贪婪学习的方式训练生成模型（这里主要指deep belief networks），有效解决了深层网络训练困难的问题，该方法在效率、可解释性方面也具有显著的优势。
Greedy Layer-Wise Training of Deep Networks
推荐理由：同样是影响巨大的工作之一，首次提出采用贪婪的形式对深度网络进行逐层训练，作为更好的初始化方式，避免模型陷入局部最优。
Learning Deep ResNet Blocks Sequentially using Boosting Theory
推荐理由：基于boosting方法，提出将ResNet逐层分解进行训练，理论证明完备。

前沿论文

Training Neural Networks with Local Error Signals
推荐理由：基于VGG提出了一种局部监督训练算法，主要基于CIFAR和SVHN进行了实验验证。
Greedy Layerwise Learning Can Scale to ImageNet
推荐理由：基于VGG，首次在ImageNet上验证了，深度神经网络也可以采用逐层的方式进行训练，且效果不会变差。但其所提方法计算开销较大，且未考虑ResNet、DenseNet等较新的网络结构。
Decoupled Greedy Learning of CNNs
推荐理由：作者在ICML2019上发表的文章进行了进一步拓展，一方面降低了方法的计算开销，另一方面在理论上证明了其收敛性，也探讨了异步训练的可行性。

参考资料

https://www.bilibili.com/video/BV1Uq4y137yB/