SSD与MobileNet详解

1.概述

本文档阐述SSD检测算法原理，及以MobileNet为Backbone的网络搭建方式。

十里桃园首发，转载请注明

Why SSD？

无论是机器学习或是深度学习一般都可分为两个部分：特征提取与分类任务。

在传统的机器学习方法中，特征提取需要依据图像以及特有的检测目的抓取特有特征，如偏重物体轮廓的HOG特征，注重明暗对比的Haar特征等，特征被描述之后送入机器学习算法分类，如SVM、Adaboost等，进而判断物体的分类。将上述的流程在图像上做滑框操作或代入已图像预处理的ROI框即完成了图像检测与识别任务。
在这里插入图片描述

图.1 机器学习目标检测简图

在深度学习中，特征提取需要由特有的特征提取神经网络来完成，如VGG、MobileNet，ResNet等，这些特征提取网络往往被称为Backbone。通常来讲在BackBone后面接全连接层(FC)来执行分类任务。但FC对目标的位置识别乏力。经过算法的发展，当前主要以特定的功能网络来代替FC的作用，如Mask-Rcnn、SSD、SSDlite、YOLO等。
在这里插入图片描述

图.2 深度神经网络特征提取+SSD分类器

本文主要阐述说明以MobileNet_v2为Backbone，以SSD为分类器来执行分类任务的具体架构。

SSD 分类框架

3.1．两种主流的深度学习目标检测分类算法

基于目标检测与识别算法分为两个类型：

1，Two-Stage方法，如R-CNN系列算法，其先产生一系列稀疏的候选框，然后对这些候选框进行分类和回归。

2，One-Stage算法，如Yolo、SSD等，其主要思路为均匀地在图片不同位置进行密集抽样，抽样时采用不同尺度和长宽比，进行分类和回归，整个过程只需一步，相应的其运行速度要远远优于Two-Stage方法

两种方法的mAP(Mean Average Precision)与运行速度如下图：
在这里插入图片描述

图.3 Two-Stage与One-Stage算法性能对比图

如上图，横轴为识别帧率，纵坐标为mAP。可以看出，One-Stage算法的帧率在保证mAP的前提下，普遍高于Two-Stage，更适合在嵌入式移动设备端部署。

3.2．SSD算法

和FC不同的是，SSD在多个尺度的特征图上分别执行目标检测工作。这样可以使得各个尺度的目标都能被兼顾，小尺度特征图预测大目标，大尺度特征图预测相对较小的目标。

3.2.1．感受野

感受野是指影响某个神经元的输入区域，也被称为理论感受野。

输入区域中每个像素点对输出影响的重要性不同，越靠近中心的像素点影响越大，呈高斯分布。中间一小部分区域对神经元的输出有绝对的影响，这中间一小部分被叫做有效感受野。

在这里插入图片描述

图.4 感受野与Default Box

如图.4，左侧整个黑色区域就是理论感受野，中间成高斯分布的白色点云区域为有效感受野。右侧图像蓝色框内对应理论感受野，绿色圆内对应有效感受野，而红色框内是Default Box大小，Default Box比理论感受野小很多，但是可以容纳大部分有效感受野内部信息。Default Box的具体含义与作用在下节给出。

3.2.2．Default Box

3.2.2.1 Default Box Acquisition

特征图是输入图像经过神经网络卷积产生的结果，表征的是神经空间内一种特征，其分辨率大小取决于先前卷积核的步长。SSD算法中共取6层不同尺度的特征图，在每层特征图的每个像素点处生产不同宽高比的框，此类的框统称为Default Box。

在这里插入图片描述

图.5 8*8特征图和Default Box

如上图，假定有8*8的特征图，特征图上的每个格子称为特征图小格，在每个特征图小格上面有一系列固定大小的Box，上图中每个小格上有4个Box，用虚线框标识。

泛化地来说，如果一个特征图的大小是mn，也即有mn个特征图小格。在每个小格上有k个Default Box，那么这层特征图Default Box的总数为mnk。

Default Box自身的尺度(scale)和宽高比(aspect ratio)也有特殊的规定的方式，假设一共用I个特征图做预测，对于每个特征图而言其Default Box的尺度按下面的公式计算：

在这里插入图片描述

尺度(scale)是相对于输入图像的分辨率，最终Default Box的实际像素尺寸需乘以输入图像的分辨率，如SDD300，则需乘以300。

在这里插入图片描述

3.2.3． Box regression

对于神经网络前向流动来说，需要将Prior Box与Ground Truth Box做匹配。匹配成功则说明，Prior Box所包含的是被检测的目标。但其力完整目标的Ground Truth Box还有一定的神经网络高维空间内的距离。显然地，将Prior Box的分类尽可能地通过一个高维向量分类并回归到Ground Truth Box为神经网络地最终目标之一。

在做回归之前，需先明确其要回归的内容，即有哪些数据向哪些数据回归。对于一个Prior Box 其参数如下图：

在这里插入图片描述