SFFAI 15 | 基于深度学习的通用物体检测算法对比探索

关注微信公众号：人工智能前沿讲习班，公众号对话框回复“张士峰”获取PPT。

目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，本文作者对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、AlignDet等系列算法。

讲者介绍

张士峰：中科院自动化所2015级直博，导师李子青研究员，研究方向为基于深度学习的物体检测，主要包括通用物体检测、人脸检测、行人检测。目前已发表论文12篇，其中第一作者论文9篇，包括IJCV、CVPR、ICCV、ECCV、IJCAI、AAAI等。再投论文9篇，再审专利3项，获CCF-CV学术新锐奖、国家奖学金、唐立新奖学金、必和必拓奖学金、攀登一等奖学金、三好学生、国际人脸检测竞赛季军、最佳学生论文等荣誉。

报告题目：基于深度学习的通用物体检测算法对比探索

报告摘要：目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，我们对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、AlignDet等系列算法。此次分享会将概括地介绍通用物体检测算法，以及我们自己一系列相关的工作。

Spotlight：

通用物体检测算法对比探索；
一步法检测器的一系列改进工作。

论文推荐

Deformable ConvNets v2- More Deformable, Better Results
推荐理由：微软亚研代季峰老师组的文章，可形变卷积网络的加强版。可变形卷积网络的特征支持空间比常规的卷积网络更符合目标结构，但这种支持远远超出感兴趣的区域，导致特征受到不相关图像内容的影响。为了解决这个问题，DCNv2对网络中可变形卷积进行更全面的集成，引入一种扩展变形建模范围的调制机制，增强了建模能力。为了有效地利用这种丰富的建模能力，其通过提出的特征模拟方案指导网络训练，该方案帮助网络学习特征，这些特征反应目标焦点和R-CNN网络分类能力的特征。
AutoFocus- Efficient Multi-Scale Inference
推荐理由：Larry S. Davis老师组继SNIP和SNIPER后又一力作，保持检测精度基本不掉的情况下，提高检测速度。该文章提出了一种高效的多尺度目标检测算法用于高效检测物体。这种算法使用了由粗到精的策略，只在那些可能有小物体存在的区域使用细粒度的检测。为了得到这些区域，其提出了一种称为FocusPixels的方法来预测小区域。同时为了配合FocusPixels高效的使用，设计了FocusChip来涵盖FocusPixels区域，以减少计算量。
SSD- Single Shot MultiBox Detector
推荐理由：SSD是一步法检测器的集大成者，达到跟接近二步法模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。SSD相当于多尺度的RPN来做物体检测，它利用多个尺度的检测层，分别关联大小合适的anchor box，使得不同尺度的物体在合适的特征层上被检测。同时不依靠逐区域操作的子网络，一次分类和回归得到最终的结果，取得了不错的检测精度以及较快的检测速度。
Faster R-CNN- Towards Real-Time Object Detection with Region Proposal Networks
推荐理由：Faster R-CNN是二步法检测器的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，在当时到达了SOTA的精度。Faster R-CNN的成功之处在于用RPN网络完成了检测任务的深度化。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用。这项工作奠定了”RPN+RCNN”的两阶段方法元结构，影响了大部分后续工作。
Single-Shot Refinement Neural Network for Object Detection
推荐理由：一步法检测器的网络结构，位置框和物体的类是在同一个特征提取层来做回归和分类预测的，这种的网络运算速度虽然快但是准确度不够高。RefineDet是基于SSD的改进算法，该算法主要是利用特征金字塔的上半部分来回归粗略位置参数来调整anchor的位置以及框的二分类（是否是物体的位置）任务，用下半部分相对于调整的anchor的参数来回归精细物体位置和框内物体的分类任务，从而保持一步法检测器的速度下，达到二步法的检测精度。
Selective Refinement Network for High Performance Face Detection
推荐理由：人脸检测中存在着召回效率不够高，回归结果不够准的问题。为了解决这个问题，SRN选择性地在特征金字塔浅层使用二阶段分类，在特征金字塔深层使用二阶段回归，有效地提高了回归结果的准度以及召回效率。同时，为了引入多样化的感受野信息，有助于SRN检出极端尺度、姿态下的人脸，进一步设计了RFE模块。发表时，SRN在AFW、PASCAL face、FDDB、WIDER FACE上取得了最好的结果。

参考资料

https://www.bilibili.com/video/BV1Dt411p7TN/
https://bbs.sffai.com/d/41