SFFAI 129 | 预训练模型专题《刘沛羽：基于矩阵乘积算符的预训练语言模型压缩与轻量化微调》

SFFAI论坛网站已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI129】获取讲者PPT资料，入交流群，推荐论文下载。

预训练语言模型在自然语言处理领域已经取得了非常瞩目的效果，但是由于其庞大的参数量，导致在实际应用的过程中无法高效的微调与应用。本期我们邀请到了来自中国人民大学的刘沛羽同学，他提出了一种新颖的预训练语言模型轻量化微调和压缩的方法，可以减少平均91%的待微调参数量。

讲者介绍

刘沛羽：中国人民大学博士生，导师为赵鑫教授，主要研究方向为自然语言处理，模型压缩，目前已经在ACL会议发表论文1篇。

报告题目：基于矩阵乘积算符的预训练语言模型压缩与轻量化微调

报告摘要：本文提出了一种新颖的预训练语言模型轻量化微调和压缩的方法。其中，矩阵乘积算符 (MPO) 表示可以将权重矩阵表示为中间张量（包含主要信息）和辅助张量（包含极少参数量）的乘积形式。基于此，我们借助矩阵的MPO表示形式，提出了一种新颖的微调策略，即只需要更新包含极少参数的辅助张量就能实现对整体权重矩阵的更新。同时，我们也设计了一种新的优化方法来训练MPO表式下的多层网络结构。除此之外，我们提出的方法具有通用性，不论是原始的模型还是已经压缩过的模型上，均可以极大程度地降低需要微调的参数量，最终可以减少平均91%的待微调参数量。在本文实验中也说明了该方法在模型压缩上的有效性。

论文题目：Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators

分享亮点：

本文提出了预训练语言模型的轻量化微调的方法，可降低平均91%的待微调参数量；
基于矩阵的MPO表示，本文将轻量化微调和总参数的压缩统一在一个框架下；
本文的方法适用于不同的模型结构，甚至包括已经压缩过的模型。

论文推荐

Compressing deep neural networks by matrix product operators
推荐理由：本文是发表在物理领域的期刊PRR上，是早期提出把MPO应用在深度神经网络压缩中的经典工作。
Parameter-Efficient Transfer Learning for NLP
推荐理由：本文是轻量化微调的经典工作，通过增加Adapter结构，固定PLM参数不训练，只更新Adapter结构即可极大降低预训练模型的可训练参数。
ALBERT A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
推荐理由：本文是模型压缩领域的经典工作，主要方法是参数共享和权重分解，尤其是通过共享BERT模型的transformer layer可以实现非常可观的压缩率，模型总大小只有11MB左右。
Prefix-Tuning Optimizing Continuous Prompts for Generation
推荐理由：本文是针对轻量化微调的近期工作，将一个连续的特定于任务的向量序列添加到输入，称为“前缀”，只训练前缀而固定PLM参数，方法思路容易理解，效果出众。
Raise a Child in Large Language ModelTowards Effective and Generalizable Fine-tuning
推荐理由：本文是轻量化微调的近期工作，仅需要选择大模型中的部分权重进行微调即可在下游任务上提点。
LORA LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
推荐理由：本文是轻量化微调的近期工作，将模型训练过程中的参数变化量∆W进行低秩分解，可以极大降低模型的可训练参数量。

参考资料

https://www.bilibili.com/video/BV1YS4y1F7PZ/