SFFAI 15 | 基于深度学习的目标检测算法剖析与实现

关注微信公众号：人工智能前沿讲习班，公众号对话框回复“尤安升”获取视频PPT。

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。

讲者介绍

尤安升：北京大学智能科学系研二，本科就读于北京大学信科计算机系，有过多年计算机视觉开发经验，精通图像分类、图像分割、关键点定位以及目标检测，开源项目PyTorchCV作者。

报告题目：基于深度学习的目标检测算法剖析与实现

报告摘要：目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，此次分享会主要介绍基于深度学习的两种目标检测算法思路与实现细节，分别为One-Stage目标检测算法和Two-Stage目标检测算法。

Spotlight：

目标检测算法原理剖析；
目标检测算法实现细节讲解。

论文推荐

CornerNet- Detecting Objects as Paired Keypoints
推荐理由：该文章巧妙地利用关键点来表示物体方形包围框，即一个目标框可以由两个点（左上角和右下角）来表示，这样一个目标物体在预测的时候就可以直接预测两个类别的关键点，然后对两个类别的关键点进行组合即可生成对应的目标框，是One-Stage检测算法中一个较为有意思的尝试。
SSD- Single Shot MultiBox Detector
推荐理由：One-Stage算法中的经典算法，在既保证速度，又要保证精度的情况下，提出了一种在多尺度特征图上直接回归目标类别和位置的One-Stage检测框架。相比较于其他单阶段检测模型（YOLO），SSD通过设置Anchor Boxes和使用多尺度特征图，使得在取得了较高的精度的同时能保持较高的速度；相对于那些需要 object proposals 的两阶段检测模型（Faster R-CNN），SSD 完全取消了 proposals generation、pixel resampling或者 feature resampling这些阶段，更易于训练优化。后续One-Stage相关改进工作多基于该算法进行。
Faster R-CNN- Towards Real-Time Object Detection with Region Proposal Networks
推荐理由：Two-Stage算法中的经典算法，通过区域候选网络代替传统方法生成region proposals，极大地提高了Two-Stage检测算法的速度，至此Two-Stage检测算法基本确定，后续相关工作多基于该算法进行改进，如FPN、R-FCN等目标检测算法。
Cascade R-CNN- Delving into High Quality Object Detection
推荐理由：类似于Faster R-CNN、FPN等，其Proposal网络对于正样本只设置了一个阈值，只做了一次较为宽松的约束，得到的Proposals结果较为粗糙，当对检测框的定位结果要求更为精确的时候就稍显不足。而Cascade R-CNN在获取Proposals的时候也采用逐步求精的策略，前一步生成的Proposals作为后一步的输入，通过控制正样本的交并比阈值不断提高Proposals的质量。
Acquisition of Localization Confidence for Accurate Object Detection
推荐理由：该算法提出了IOU-Guided NMS，通过一个子网络获取每个Proposals的IOU得分，然后以IOU（交并比）得分作为NMS的排序依据，因为IOU得分直接反应了对应框的定位精确程度，优先考虑定位精度较高的框，防止定位精度较低但是其他得分较高的框被误排序到前面。

参考资料

https://www.bilibili.com/video/BV1Jt411C793/
https://bbs.sffai.com/d/41