SFFAI 123 | 机器翻译专题《谷舒豪：关于神经机器翻译中灾难性遗忘现象的分析与改进》

SFFAI论坛已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI123】获取讲者PPT资料，入交流群，推荐论文下载。

神经机器翻译模型在进行领域自适应的过程中会发生灾难性遗忘现象，即模型会过拟合新数据的特征，而逐渐忘记在之前数据上学习得到的知识。尽管研究人员已经提出很多方法解决这个问题，但是我们对发生灾难性遗忘现象的原因还不是很清楚。本期我们邀请到来自中国科学院计算技术研究所的谷舒豪，分享他对于灾难性遗忘现象的分析与改进。

讲者介绍

谷舒豪：中科院计算技术研究所博士生，研究方向为自然语言处理及机器翻译，目前已在ACL、EMNLP、NAACL等自然语言处理会议上发表论文。

报告题目：关于神经机器翻译中灾难性遗忘现象的分析与改进

报告摘要：我们从模型的模块和参数两个角度去分析灾难性遗忘现象所发生的原因，我们发现模型中的一些模块和参数对于保留旧领域的知识更重要，而另一些则对学习新领域的知识更重要。结合我们的分析，我们提出根据模型参数的重要性将网络分为两部分，一部分用于保留旧的知识，另一部分则只用于学习新的知识。实验结果表明，我们的方法相比于对比方法在不同的翻译领域上都能带来持续的提升，尤其在领域差别较大的领域中效果更明显。

论文题目：Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation

分享亮点：

我们分别从参数和模块的角度研究了在神经机器翻译模型进行领域自适应的过程中发生灾难性遗忘的原因；
我们证明了对于旧领域不重要的模型参数可以拿来提升新领域的翻译质量；
我们提出了一种领域自适应的方法可以在不同的领域上带来提升，针对差异性较大的领域效果更为明显。

论文推荐

Stanford Neural Machine Translation Systems for Spoken Language Domains
推荐理由：最早提出使用外领域数据初始化模型进而提高目标领域工作的文章。
Fine-Tuning for Neural Machine Translation with Limited Degradation across In- and Out-of-Domain Data
推荐理由：这篇文章提出为每个领域加上不同的输出层，来学习不同领域的的特征，能够用比较少的参数来提高各个领域的翻译质量。
Freezing Subnetworks to Analyze Domain Adaptation in Neural Machine Translation
推荐理由：这篇文章作者通过固定神经机器翻译模型不同模块参数的方式来理解各模块在领域自适应的过程中所发挥的作用。
Overcoming Catastrophic Forgetting During Domain Adaptation of Neural Machine Translation
推荐理由：这篇论文通过Fisher信息矩阵来判断模型参数的重要性，然后对于各重要的参数施加更多的限制，使其和原始值更为接近，来缓解灾难性遗忘现象。
Simple, Scalable Adaptation for Neural Machine Translation
推荐理由：这篇文章提出了在模型中插入领域私有的模块来学习对应的领域特征。
Finding Sparse Structures for Domain Specific Neural Machine Translation
推荐理由：这篇多领域翻译的文章通过不同参数对于不同领域的重要性来构造不同的领域子网络。

参考资料

https://www.bilibili.com/video/BV1144y1H7fu/