SFFAI 113 | 算法优化专题《王振楠：深度学习模型提升泛化性能的正则化新方法》

论坛：https://bbs.sffai.com/

关注公众号：【人工智能前沿讲习】，回复【SFFAI113】获取讲者PPT资料，入交流群，推荐论文下载。

近年兴起的深度学习方法存在泛化能力差的软肋，遇到与训练集不同的样本，缺乏真人那样举一反三和学以致用的能力。为了提升深度学习网络的泛化能力，正则化是一种常用的方式。正则化一般指通过对深度学习模型添加先验约束，提升模型的泛化能力，如常用的l2正则化。本期我们邀请到来自深圳大学的王振楠同学，分析他在新的正则化方法上的研究。

讲者介绍

王振楠：深圳大学博士生，聚焦于深度学习的基础性研究，如正则化、损失函数等，先后在ICCV和NeurIPS两个计算机领域顶级会议上发表论文。

报告题目：深度学习模型提升泛化性能的正则化新方法

报告摘要：不同于普通针对权重向量模长的正则化方式，本报告会介绍一种针对权重向量方向的正则化策略，使权重向量之间的相关性大幅减弱，降低网络的过拟合。此外，目前大多数正则化是在网络前向传播中添加的，本报告还会介绍一种在反向传播中隐性对梯度进行正则化的方法。作为对深度神经网络底层的改进，这些方法有可能与不同应用场景中的各类深度学习模型相结合。

论文题目：

MMA Regularization: Decorrelating Weights of Neural Networks by Maximizing the Minimal Angles
PR Product: A Substitute for Inner Product in Neural Networks

分享亮点：

本报告介绍了一种使权重向量去相关性的正则化策略；
本报告介绍了一种对梯度正则化的策略，同样有去相关性的作用；
本报告介绍的正则化策略具有普遍适用性，可与多种任何多种模型结合使用。

论文推荐

THE FEKETE PROBLEM AND CONSTRUCTION OF THE SPHERICAL COVERAGE BY CONES
推荐理由：这篇论文是本报告内容的数理基础。类似的数学论文有很多，但这篇比较简洁全面的介绍了高维空间中的超球面上点的均匀分布问题，并且论述了常用的几类方法，还列出了几个常用的算法。
DSD DENSE-SPARSE-DENSE TRAINING FOR DEEP NEURAL NETWORKS
推荐理由：这篇比较早（据我所知，是第一篇）提出迭代的训练方式。也就是开始使用所有参数进行训练；一段时间后，把数值较小的参数去掉；继续训练一段时间后，把之前去掉的参数重新初始化接着训练。这样最后提升了模型的泛化性能。很新颖的训练方式。
RePr Improved Training of Convolutional Filters
推荐理由：这篇论文可以看成是上一篇的升华。主要有两点改进：①把DSD这种方式进行多次迭代；②在sparse阶段，使用权重向量的余弦相似性，来进行判断是否要去掉。这篇论文的写作对motivation有比较详细的叙述。
REGULARIZING CNNS WITH LOCALLY CONSTRAINED DECORRELATIONS
推荐理由：正交正则化在很多工作中都用，但据我所知，这是第一篇正式提出和论述正交正则化的论文。
Learning towards Minimum Hyperspherical Energy
推荐理由：这篇和本报告的内容非常相关。这篇论文也尝试使用均匀分布达到权重向量去相关性，但是其使用的是Thomson problem里面的势能函数，计算复杂、极小值点多。
Regularizing Neural Networks via Minimizing Hyperspherical Energy
推荐理由：这是上一篇论文的姊妹篇。首先证明了上一篇论文存在极小值点多的问题，并分析了其原因。然后，这篇论文提出一些解决这些问题的tricks。但是其解决方法并不涉及一种新的方案，属于对上篇论文方法的完善。

参考资料

https://www.bilibili.com/video/BV1MR4y137RP/