SFFAI论坛网站已开放注册,详情点击查看:https://bbs.sffai.com/d/312
关注公众号:【人工智能前沿讲习】,回复【SFFAI126】获取讲者PPT资料,入交流群,推荐论文下载。
跨模态检索,如图文检索,是一项极具挑战性的任务,其难点在于实现视觉和语言两种模态间的语义对齐。以往研究中的语义对齐主要集中在实体(object)层面,即让文本中的单词和图片的对应区域互相匹配。本期论坛我们邀请到了来自北京大学的任抒怀同学,提出了“关系一致性”假设,即给定一个匹配的图文对,其词之间的语言关系和区域之间的视觉关系需保持一致。
讲者介绍
任抒怀:北京大学信息科学技术学院计算语言学研究所二年级博士生。主要研究方向为多模态学习、大规模预训练和高效NLP,目前已在 ACL 与 EMNLP 等会议上发表多篇论文。
报告题目:针对跨模态检索的关系对齐和语义校准(ACL 21)
报告摘要:我们将语义对齐推广到了关系层面,并提出了“关系一致性”假设,这样能学到更好的上下文表示,提高模型的性能和可解释性。对此,我们提出了一种新指标,通过计算语言自注意力分布和视觉自注意力分布间的语义距离,衡量语言关系和视觉关系间的一致性。进一步地,我们提出了一种正则化训练方法,通过约束两种关系的一致性,加强两个模态的语义校准和对齐。在Flickr30k和MS COCO数据集上的实验结果表明,这种方法显著提高了多模态预训练模型在图文检索任务上的性能。
论文题目:Learning Relation Alignment for Calibrated Cross-modal Retrieval
分享亮点:
- 本文提出一种“关系一致性”假设,即给定一个匹配的图文对,其文本中的语言关系需和图片中的视觉关系需保持一致;
- 本文提出了一种新指标,通过计算语言自注意力分布和视觉自注意力分布间的语义距离,来衡量语言关系和视觉关系间的一致性;
- 本文提出了一种正则化训练方法,通过约束语言自注意力分布和视觉自注意力分布间的语义距离,实现两个模态的语义校准和对齐,进而改善图文对的特征表示,提高跨模态检索的效果。
论文推荐
UNITER UNiversal Image-TExt Representation Learning
推荐理由:单流多模态预训练的经典之作。
ViLBERT Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
推荐理由:双流多模态预训练的经典之作。
Multimodal Pretraining Unmasked A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs
推荐理由:提出了统一单流、双流多模态预训练的框架。对单、双流架构中的注意力机制进行了详细分析。
Oscar Object-Semantics Aligned Pre-training for Vision-Language Tasks
推荐理由:提出在多模态预训练中加入实体标签,以加强语言和视觉中的实体语义对齐。
ViLT Vision-and-Language Transformer Without Convolution or Region Supervision
推荐理由:使用基于patch的ViT而非基于object的Faster RCNN进行图片特征编码,取得60倍的提速。
Learning Transferable Visual Models From Natural Language Supervision
推荐理由:OpenAI的CLIP。将图片分类任务建模为匹配形式,把图片标签换成对应的文本描述,并利用对比学习进行大规模预训练,取得了良好的zero-shot效果。