Bootstrap

基于深度学习的目标检测及场景文字检测研究

基于深度学习的目标检测及场景文字检测研究



转载自:https://blog.csdn.net/u013250416/article/details/79591263

一.目标检测与场景文字检测定义


目标检测:给定一张图片或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别。

场景文字检测:

文字检测(Text Detection):对照片中存在文字的区域进行定位,即找到单词或者文本行(word/linelevel)的边界框(bounding box);

文字识别(Text Recognition):对定位后的文字进行识别。

将这两个步骤合在一起就能得到文字的端到端检测(End-to-end Recognition)。


二.图像分类模型

卷积神经网络(Convolutional Netural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。CNN的经典结构始于1998年的LeNet,成于2012年历史性的AlexNet,从此大盛于图像相关领域。主要包括:

1.LeNet,1998年

2.AlexNet,2012年

3.ZF-Net,2013年

4.GoogleNet,2014年

5.VGG,2014年

6.ResNet,2015年

7.ResNeXt,2017年

8.DenseNet,2017年


1.LeNet

1998年的LeNet标志着CNN的真正面试,但是这个模型在后来的一段时间并未能真正火起来。主要原因包括:

1)当时没有GPU,计算能力低;

2)SVM等传统机器学习算法也能达到类似的效果甚至超过。



2.AlexNet

AlexNet的top-5错误率为15.3%,是2012年的ILSVRC大赛的冠军。

AlexNet相比传统的CNN有哪些重要改动呢?

1)数徐增强。如水平翻转,随机剪裁,平移变换,颜色,光照变换。

2)dropout。防止过拟合。

3)Relu激活函数。代替传统的Tanh或者Sigmoid。

4)Local Response Normalization。利用临近的数据做归一化。

5)Overlapping Pooling。

6)多GPU并行。



3.ZF-Net

ZF-Net的top-5错误率为11.2%,是2013年ILSVRC大赛的冠军。ZF-Net基于AlexNet进行了微调。

1)使用Relu激活函数和交叉熵代价函数;

2)使用较小的filter,以保留更多的原始像素信息。


4.GoogleNet

GoogleNet的top-5错误率为6.7%,是2014年ILSVRC大赛的冠军。其特点是:

1)共有9个inception模块,将CNN原来的串行结构改为并行,共有22层。

2)不使用FC层,而使用平均池化代替,量级从7*7*1024变为1*1*1024,从而减少大量参数计算。

3)将同一输入的多个修建版本输入网络,故softmax为平均概率。


5.VGG-Net


其中,最具有代表性的包括VGG16(D)和VGG19(E)。VGG与AlexNet相比,估值更精确,更省空间。改动如下:

1)增加每层中卷积层的个数(1-> 2~4)

2)降低卷积核的大小(7*7->3*3)

3)增加通道数量

下图为VGG16的示意图:



6.ResNet

ResNet(residual network)的top-5错误率为3.6%,是2015年ILSVRC大赛的冠军。

在“平整”网络中,随着网络层数的增加,训练误差也随之增加。

如何避免训练误差?

假设:原始层由一个已经学会的较浅模型复制而来,附加层设置为恒等映射。

那么,原始层与附加层叠加,至少具有与原始层相同的训练误差。


上图左边为resnet-34的残差单元,右边为resnet-50/101/152的残差单元。

下表为典型的残差网络结构。



7.ResNeXt

1)同时采用VGG堆叠的思想和 GoogleNet inception的split-transform-merge的思想;

2)提出了aggregrated transformations,用一种平行堆叠相同拓扑结构的blocks代替原来的ResNet的三层卷积的block;

3)证明了增加cardinality比增加深度和宽度更有效果(cardinality:size of the set of transformations);

4)在增准确率的同时基本不改变或降低模型的复杂度。

下图左边是resnet的block,右边是resnext的block,cardinality = 32



8. DenseNet



DenseNet每一层的变换:

,其中指的是第0个到第l-1个层的连接。

类别ResNet的变换:


特点:

1)让网络中的每一层都直接与前面层相连,实现特征的重复利用;

2)同时把网络中的每一层都设计得比较“窄”,即只学习非常少的特征图(最极端情况就是每一层只学习一个特征图),达到降低冗余性的目的。

优点:省参数,省计算,抗过拟合


二.目标检测方法

1.传统目标检测方法

传统目标检测的三个阶段:


1)区域选择:利用滑动窗口遍历整幅图像,设置不同尺度和不同长宽比。

2)特征提取:利用目标的形态多样性,光照变化多样性,背景多样性等,进行特征提取。常用特征提取方法有:SIFT, HOG。

3)分类器分类:主要有SVM,Adaboost等。

缺点:

1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;

2)手工设计的特征对于多样性的变化没有很好的鲁棒性。


2.基于Region Proposal的深度学习目标检测算法

对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?

-区域选择:Region Proposal

region proposal是预先找出图中目标可能出现的位置。由于region proposal利用了图像中的纹理,边缘,颜色等信息,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。

-特征提取+分类:CNN分类模型

获得候选区域后可以使用CNN分类模型对其进行图像分类。


1)R-CNN(CVPR 2014, TPAMI 2015)

Rich Feature Hierarchies for Accurate Object Detection and Segmentation


RCNN算法分成四个步骤:

(1)一张图像生成1k~2k个候选区域;

(2)对每个候选区域,使用深度网络提取特征;

(3)将特征送入每一类的SVM,判断是否属于该类;

(4)使用回归器精细修正候选框位置。

效果:R-CNN在pascal voc2007上的检测结果从DPM HSC的34.3%直接提升到了66%(mAP)。

R-CNN速度慢的原因:对图像提取region proposal(2000个左右)之后将每个proposal当成一张图像进行后续处理(利用CNN提取特征+SVM分类),实际上对一张图像进行了2000次提取特征和分类的过程。


2)Fast R-CNN(ICCV 2015)


与R-CNN框架图对比,有两处不同:

(1)最后一个卷积层后加了一个RoI(Regions of Interest) pooling layer;

(2)损失函数使用了多任务损失函数(multi-task loss),将边框回归直接加入到CNN网络中进行训练。

Fast R-CNN改进:

(1)RoI pooling layer:SPP-NET对每个proposal使用了不同大小的金字塔映射,将RoI pooling layer只需要下采样到一个7*7的特征图;

(2)使用softmax代替SVM分类,将多任务损失函数边框回归加入到网络中:除了region proposal提取阶段以外,其他的训练过程是端到端的;

(3)微调部分卷积层。

存在问题:要先提取region proposal,没有实现真正意义上的端到端训练。


3)Faster R-CNN(ICCV 2015)

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

整个网络可以分为四个部分:

(1)Conv layers。首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续的RPN层和全连接层。

(2)Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background,再利用bounding box regression来修正anchors来获得精确的proposals。

(3)RoI Pooling。该层收集输入的feature maps和proposals,送入后续全连接层判定目标类别。

(4)Classification。利用proposal feature maps计算proposals的类别,同时再次利用bounding box regression获得检测框最终的精确位置。


主要贡献:提出了区域推荐网络(RPN,Region Proposal Networks),实现了真正意义上的端到端训练。

RPN网络:在提取特征的最后的卷积层上滑动一遍,利用anchor机制和边框回归,得到多尺度多长宽比的region proposals。

Anchor机制:


对于提取特征的最后的卷积层的每一个位置,考虑9个可能的候选窗口:

三种面积(128*128,256*256,512*512) * 三种比例(1:1,1:2,2:1)。这些候选窗口称为anchors。


4)Mask R-CNN(ICCV 2017)

Mask R-CNN是一个小巧灵活的通用对象实例分割框架。它不仅可以对图像中的目标进行检测,还可以对每一个目标给出一个高质量的分割结果。它在Faster R-CNN基础之上进行扩展,并行地在bounding box recognition分支上添加一个用于预测目标掩模(object mask)的新分支。


Mask R-CNN改进:

(1)基础网络的增强:ResNeXt-101 + FPN(Feature Pyramid Network);

(2)RoI Align层的加入:即对feature map的插值,直接对RoI pooling的量化操作会使得得到的mask与实际物体位置有一个微小偏移;

(3)掩模表示:一个掩模编码了一个输入对象的空间布局。使用一个FCN来对每个RoI预测一个m*m的掩模,保留了空间结构信息;

(4)分割loss的改进:对每个类别独立地预测一个二值掩模,没有引入类间竞争,每个二值掩模的类别依靠网络RoI分类分支给出的分类预测结果。

Mask-RCNN比一般的state-of-the-art方法(用Faster-RCNN+ResNet-101+FPN实现)的mAP高3.6%:

1.1%来自RoI Align;0.9%来自多任务训练;1.6%来自更好的基础网络(ResNeXt-101 + FPN).


3.基于回归学习的深度学习目标检测算法

目前的深度学习目标检测算法可以分为两类:两步检测和一步检测

两步检测:Region Proposal + CNN

Faster R-CNN的方法目前是主流的目标检测算法,但是速度上并不能满足实时的要求。

一步检测:

直接利用CNN的全局特征预测每个位置可能的目标。代表方法:YOLO,SSD


1)YOLO(CVPR 2016)

You Only Look Once: Unified, Real-Time Object Detection


YOLO目标检测流程:

(1)给定一个输入图像,将图像划分为7*7的网格;

(2)对于每个网格,都预测2个边框;

(3)根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可。


如何回归:

最后一层为7*7*30维(7*7:划分的网格数;30维:4维坐标信息(中心点坐标+长宽)+1维目标置信度+20维类别)

利用前面的4096维的全图特征直接在每个网格上回归出目标检测所需要的信息(边框信息+类别)。


2)SSD(ECCV 2016)

SSD:Single Shot MultiBox Detector

SSD和YOLO的异同:

相同:SSD获取目标位置和类别的方法和YOLO一样,都是使用回归;

不同:YOLO预测某个位置使用的是全局的特征,SSD预测某个位置使用的是该位置周围的特征。


假如某一层特征图(图b)大小为8×8,那么就使用3×3的滑动窗口提取每个位置的特征,然后进行特征回归得到目标的坐标信息和类别信息(图c)。

如何建立某个位置和其特征的对应关系呢?

-在多个feature map上,使用Faster RCNN的anchor机制,利用多层的特征并且自然地达到多尺度提取。

Prior box与Faster rcnn中anchor的区别?

-相同:都是目标的预设框,没有本质的区别;

-不同:每个位置的prior box一般是4~6个,少于Faster RCNN默认的9个;同时,prior box是设置在不同尺度的feature maps上的,而且大小不同。


4.提高目标检测性能的方法

(1)难分样本挖掘(hard negative mining)

R-CNN在训练SVM分类器时使用了难分样本挖掘的思想,但Fast R-CNN和Faster R-CNN由于使用端到端的训练策略并没有使用难分样本挖掘,只是设置了正负样本的比例并随机抽取。CVPR2016的Training Region-based Object Detectors with Online Hard Example Mining将难分样本挖掘(hard example mining)机制嵌入到SGD算法中,使得Fast R-CNN在训练的过程中根据region proposal的损失自动选取合适的region proposal作为正负例训练。实验结果表明使用OHEM(Online Hard Example Mining)机制可以使得Fast R-CNN算法在VOC2007和VOC2012上mAP提高4%左右。

(2)多层特征融合

Fast R-CNN和Faster R-CNN都是利用了最后卷积层的特征进行目标检测,而由于高层的卷积层特征已经损失了很多细节信息(pooling操作),所以在定位时不是很精确。HyperNet等一些方法则利用了CNN的多层特征融合进行目标检测,这不仅利用了高层特征的语义信息,还考虑了低层特征的细节纹理信息,使得目标检测定位更精准。

(3)使用上下文信息

在提取region proposal特征进行目标检测时,结合region proposal的上下文信息,检测效果往往会更好一些。


三.场景文字检测方法

1.基于目标检测

1)Symmetry-based text line detection in natural scenes(CVPR 2015)

(1)利用文本行自身上下结构的相似性:设计一个具有对称性的模板,即在不同尺度下扫描图像,通过其相应得到对称的中心点;

(2)在得到对称中心点之后通过文字的高度和连通性得到边界框(bounding box);

(3)使用CNN进行后续的处理。



文本行proposal生成过程:

(1)输入图像;

(2)在多维度进行特征抽取;

(3)生成对称概率映射图;

(4)在对称概率映射图中寻找对称轴;

(5)估计边框;

(6)多维度提取proposal。


2)Reading Text in the Wild with Convolutional Neural Networks(IJCV 2016)


针对文字检测问题对R-CNN进行了改造:

(1)通过edge box或者其他的handcraft feature来计算proposal;

(2)使用分类器对文本框进行分类,去掉非文本区域;

(3)使用CNN对文本框进行回归来得到更为精确的边界框(bounding box regression);

(4)使用文字识别算法进一步过滤出非文本区域。


3)Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV 2016)


对Faster RCNN进行了改造:

(1)改进了RPN,将anchor产生的window的宽度固定为3;

(2)RPN后面不是直接连接全连接层+回归,而是先通过一个BLSTM,再连接一个全连接层;

(3)坐标仅仅回归一个y,而不是x1,y1,x2,y2;

(4)添加k个anchors的side-refinement offsets。


4)Arbitrary-Oriented Scene Text Detection via Rotation Proposals(2017)


对Faster R-CNN进行了改造,将RoI pooling替换为可以快速计算任意方向的操作来对文本进行自动处理。

(1)带角度信息的anchor:考虑到文字的aspect ratio与一般物体的不同,因此增加了更多类型的aspect ratios;

(2)旋转的RoI:对于RPN网络结构的输出是带有角度的proposal,因此在Faster-RCNN中的RoI阶段需要将proposal进行旋转后再pooling。


5)Deep matching prior network Toward tighter multi-oriented text detection(CVPR 2017)


对SSD框架进行了改造:在生成proposal时回归矩形框不如回归一个任意多边形。


6)TextBoxes: A Fast Text Detector with a Single Deep Neural Network(AAAI 2017)


对SSD框架进行改进:

(1)设计默认框(default box)时包含较长的形状;

(2)长方形的卷积核比常用的1*1或者3*3卷积核更适合文字检测;

(3)使用识别模型对文字进行过滤和判断。


7)Detecting Oriented Text in Natural Images by Linking Segments(CVPR 2017)


对SSD框架进行改进:

(1)将文字视为小块单元,对文字小块同时进行旋转和回归;

(2)通过对文字小块之间的方向性进行计算来学习文字之间的联系;

(3)通过简单的后处理得到任意形状甚至具有形变的文字检测结果。


2.基于目标分割

1)Multi-oriented Text Detection with Fully Convolutional Networks(CVPR 2016)


(1)将文本行视为一个需要分割的目标;

(2)通过分割得到文字的显著性图像,得到文字的大概位置,整体方向及排列方式;

(3)结合其他的特征进行高效的文字检测。


2)East: An Efficient and Accurate Scene Text Detector(CVPR 2017)


同时使用分割(segmentation)和边界框回归(bounding box regression)的方式对场景文字进行检测。

使用PVANet对网络进行优化,加速,并输出三种不同的结果:

(1)边缘部分分割的得分(score)结果;

(2)可旋转的边界框(rotated bounding boxes)的回归结果;

(3)多边形bounding boxes(quadrangle bounding boxes)的结果。

同时对NMS进行改进,得到了很好的效果。


3)Deep Direct Regression for Multi-Oriented Scene Text Detection(2017)

直接对边框进行回归,不产生目标边框。






;