SFFAI 121 | 文本表示专题《孙天祥：CoLAKE：一种语言和知识联合表示学习模型》

SFFAI论坛已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI121】获取讲者PPT资料，入交流群，推荐论文下载。

语言和知识的表示学习在其各自领域一直以来都是非常重要且基础的研究方向，因为语言和知识任务存在的相似性和互补性，两者的方法经常互相借鉴、交互发展。在非上下文表示的时代（如语言表示学习的word2vec、知识表示学习的TransE），就有工作联合学习语言和知识的表示以增强在模型在两类任务上的性能。近年来随着ELMo、BERT等预训练语言模型的发展，上下文表示开始在语言和知识的表示学习中占据主导地位。因此，如何联合两者的上下文表示学习方法来缓解语言模型的知识匮乏问题同时增强知识模型的语言理解能力成为一个重要的研究问题。本期论坛我们邀请到来自复旦大学的孙天祥同学，分享他提出的统一语言和知识联合表示的学习模型CoLAKE。

讲者介绍

孙天祥：复旦大学博士生，师从邱锡鹏教授和黄萱菁教授，主要关注自然语言处理中的多任务学习、知识融入、高效推理等方向，研究成果发表于AAAI, COLING, ACL, NAACL等会议。

报告题目：CoLAKE：一种语言和知识联合表示学习模型

报告摘要：我们提出CoLAKE将语言和知识的数据组织成一种统一的图结构，在这种新型的图数据上进行MLM预训练，在学习语言表示的同时也得到了超过三百万个实体和若干关系的表示。实验表明CoLAKE在关系抽取、实体分类、知识探测等任务上都取得了显著提升。

论文题目： CoLAKE: Contextualized Language and Knowledge Embedding

分享亮点：

使用图结构统一了语言和知识的数据结构，通过应用在图上的MLM目标同时学习了语言和知识的上下文表示；
将Transformer编码器进行适当修改使其应用于图结构数据的预训练，针对语言-知识图数据提出一种行之有效的预训练手段；
使用CPU-GPU混合训练方式同时学习大规模语言模型和上百万个实体表示。

论文推荐

Knowledge Graph and Text Jointly Embedding
推荐理由：是非上下文表示时代联合语言和知识表示的代表性工作，结合Skip-Gram和TransE方法将语言和知识映射至同一语义空间，增强模型在语言和知识任务上的性能。
Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation
推荐理由：使用Skip-Gram方法将语言和知识的表示学习统一起来，是实体链接领域中的重要工作。
ERNIE Enhanced Language Representation with Informative Entities
推荐理由：是将知识图谱引入到BERT的较早尝试，将预训练好的实体向量融合进BERT中对应单词的表示，引入额外预训练任务实现语言和知识表示的对齐。
Knowledge Enhanced Contextual Word Representations
推荐理由：端到端地将实体向量融入预训练语言模型，以一种更灵活的方式选择要融入的实体向量。
K-BERT Enabling Language Representation with Knowledge Graph
推荐理由：将知识图谱中的实体和关系直接拼接到文本相应位置，其中实体和关系表示直接采用其对应文本表示，因而无需预训练可以直接应用于下游任务，是一种高效的知识融入方法。
K-ADAPTER Infusing Knowledge into Pre-Trained Models with Adapters
推荐理由：提出了一种低成本的知识融入手段，可以在保持预训练模型参数固定的情况下通过adapter引入多种知识图谱。

参考资料

https://www.bilibili.com/video/BV1eq4y1b7ZS/