SFFAI 126 | 多模态处理专题《任抒怀：针对跨模态检索的关系对齐和语义校准(ACL 21)》

SFFAI论坛网站已开放注册，详情点击查看：https://bbs.sffai.com/d/312

关注公众号：【人工智能前沿讲习】，回复【SFFAI126】获取讲者PPT资料，入交流群，推荐论文下载。

跨模态检索，如图文检索，是一项极具挑战性的任务，其难点在于实现视觉和语言两种模态间的语义对齐。以往研究中的语义对齐主要集中在实体（object）层面，即让文本中的单词和图片的对应区域互相匹配。本期论坛我们邀请到了来自北京大学的任抒怀同学，提出了“关系一致性”假设，即给定一个匹配的图文对，其词之间的语言关系和区域之间的视觉关系需保持一致。

讲者介绍

任抒怀：北京大学信息科学技术学院计算语言学研究所二年级博士生。主要研究方向为多模态学习、大规模预训练和高效NLP，目前已在 ACL 与 EMNLP 等会议上发表多篇论文。

报告题目：针对跨模态检索的关系对齐和语义校准(ACL 21)

报告摘要：我们将语义对齐推广到了关系层面，并提出了“关系一致性”假设，这样能学到更好的上下文表示，提高模型的性能和可解释性。对此，我们提出了一种新指标，通过计算语言自注意力分布和视觉自注意力分布间的语义距离，衡量语言关系和视觉关系间的一致性。进一步地，我们提出了一种正则化训练方法，通过约束两种关系的一致性，加强两个模态的语义校准和对齐。在Flickr30k和MS COCO数据集上的实验结果表明，这种方法显著提高了多模态预训练模型在图文检索任务上的性能。

论文题目：Learning Relation Alignment for Calibrated Cross-modal Retrieval

分享亮点：

本文提出一种“关系一致性”假设，即给定一个匹配的图文对，其文本中的语言关系需和图片中的视觉关系需保持一致；
本文提出了一种新指标，通过计算语言自注意力分布和视觉自注意力分布间的语义距离，来衡量语言关系和视觉关系间的一致性；
本文提出了一种正则化训练方法，通过约束语言自注意力分布和视觉自注意力分布间的语义距离，实现两个模态的语义校准和对齐，进而改善图文对的特征表示，提高跨模态检索的效果。

论文推荐

UNITER UNiversal Image-TExt Representation Learning
推荐理由：单流多模态预训练的经典之作。
ViLBERT Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
推荐理由：双流多模态预训练的经典之作。
Multimodal Pretraining Unmasked A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs
推荐理由：提出了统一单流、双流多模态预训练的框架。对单、双流架构中的注意力机制进行了详细分析。
Oscar Object-Semantics Aligned Pre-training for Vision-Language Tasks
推荐理由：提出在多模态预训练中加入实体标签，以加强语言和视觉中的实体语义对齐。
ViLT Vision-and-Language Transformer Without Convolution or Region Supervision
推荐理由：使用基于patch的ViT而非基于object的Faster RCNN进行图片特征编码，取得60倍的提速。
Learning Transferable Visual Models From Natural Language Supervision
推荐理由：OpenAI的CLIP。将图片分类任务建模为匹配形式，把图片标签换成对应的文本描述，并利用对比学习进行大规模预训练，取得了良好的zero-shot效果。

参考资料

https://www.bilibili.com/video/BV19q4y147M8/