SFFAI 49 | ICCV'19专场目标检测 & 自然语言定位

SFFAI49 - 陈韫韬

SFFAI49 - 刘雪静

关注微信号：人工智能前沿讲习，回复“陈韫韬”，“刘雪静”获取讲者PPT资料。
国际计算机视觉大会ICCV为计算机视觉方向的三大顶级会议之一，会议的论文集代表了计算机视觉领域最新的发展方向和水平。本期论坛我们邀请了两位ICCV 2019论文作者，来分享他们工作中的思考与创想。

讲者介绍

陈韫韬：中国科学院自动化研究所在读博士，主要研究方向目标检测。

报告题目：尺度特化的三叉戟目标检测网络

报告摘要：二维图像识别任务中目标尺度的变化一直是一个重要的研究问题。在本中文，我们首先设计了一组受控实验下研究网络感受野与检测器在不同尺度的检测目标上的性能的关系。基于这一基本实验发现，我们提出了一种全新的针对不同尺度物体具有统一表示能力的三叉戟网络。我们利用权重共享的平行网络分支来实现具有不同感受野的特征图。我们针对具有不同感受野的分支采取了尺度特化的训练方式。在三叉戟网络的基础上，我们提出了一种快速三叉戟网络，相比基线检测器，能在不增加计算量的情况下大幅提升检测器的性能。结合 ResNet-101 基础网络，我们的方法在 COCO 测试开发集能取得 48.4 mAP 的性能。我们同时提供基于 Detetron2(PyTorch) 和 SimpleDet(MXNet) 的开源代码。

Spotlight：

分析了网络感受野与检测器在不同尺度的检测目标上的性能的关系。
提出了一种全新的针对不同尺度物体具有统一表示能力的三叉戟网络以及其快速变种。

刘雪静：中国科学院计算技术研究所在读博士，主要研究方向自然语言定位。

报告题目：弱监督指示表达定位

报告摘要：弱监督指示表达定位（REG）旨在根据语言查询定位图像中的目标，其中目标和查询之间的映射在训练阶段是未知的。为了解决这个问题，我们提出了一种新颖的端到端自适应重建网络（ARN）。它以自适应方式建立图像区域（proposal）与查询之间的对应关系：自适应定位和协同重建。具体而言，我们首先提取主体，位置和上下文特征以分别表示图像区域和查询。然后，我们设计自适应定位模块，通过分层注意模型计算每个图像区域和查询之间的匹配分数。最后，基于注意力得分和图像区域特征，我们利用语言重建损失，自适应重建损失和属性分类损失的协同损失来重建输入查询。这种自适应机制有助于我们的模型减轻不同类型语言查询的差异。在四个大型数据集上的实验表明，ARN在很大程度上优于现有的最先进方法。可视化结果表明， ARN可以更好地处理同一场景下存在多个同类对象的情况。

Spotlight：

首次在弱监督指示表达定位中引入对位置，关系信息的处理；
提出了一种端到端的自适应重建网络（ARN），可以更好地应对不同指示表达之间的差异。

论文推荐

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
推荐理由：这是一篇针对多尺度模型设计进行详尽分析的工作，文章从图像输入，网络降采样层级以及匹配模版等三个方面详尽分析了多尺度模型的设计要素。
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
推荐理由：这是一篇分析如何在图像输入分辨率，网络宽度，网络深度之间分配计算量的工作，其中的思想在处理多尺度问题时值得借鉴。
Generation and Comprehension of Unambiguous Object Descriptions
推荐理由：这是一篇比较早关注全监督指示表达定位的方法，讲述了该任务引入的意义，提出了经典的基于CNN-LSTM的方法，同时公开了Google Refexp数据集。
Grounding of Textual Phrases in Images by Reconstruction
推荐理由：这是最早关注到弱监督指示表达定位的论文，其提出了利用视觉特征重建自然语言的方法来解决弱监督指示表达中标注缺失的问题，是一篇经典的弱监督指示表达定位的工作。
MAttNet Modular Attention Network for Referring Expression Comprehension
推荐理由：这是一篇经典的全监督指示表达理解（定位）的论文，其对主体，位置和关系的分模块建模的方法在指示表达定位中取得了非常好的效果。

参考资料

https://www.bilibili.com/video/BV1uJ411X7T1/