一、背景
随着深度学习的发展,在CNN的帮助下,找到了一种通过仅仅需要堆参数来提高模型泛化能力的方法。在这种策略的帮助下,以前工业界或者学术界很难完成的任务,在今天深度学习的帮助下通过这种办法都得到了不小的提升,很多图像类分类任务甚至超过了人类,如人脸识别,ImageNet图像分类等等。NLP在一些机器理解,机器阅读的竞赛上甚至也超越了人类的水平
当然OCR也是不例外的,OCR技术的发展在这几年也取得了非常好的效果,主要体现在以下三个地方:
1. 检测的提升
传统的文字检测算法和传统的目标检测算法以前是一个不是特别相关的问题,因为文字的有比较显著的特征便于人工来选取,但是广义的目标检测算法并没有。所以在此之前文字检测算法一般是通过一些人工特征来选取,之前一个比较代表性特征工作是MSER,他的全称叫最大稳定极值区域,他通过类似于分水岭填充算法的方式来找到图像中变化相对稳定的区域,这个工作就算在深度学习检测算法被占据的今天,MSER仍应用在特定工业场景,而且仍可用于文字图像区域的的质量检测。另外还有一些基于类似filter方式的人工设计的特征提取方式;如Stroke filter,它能够滤除图像中那些文字特征不明显的部分,而保留那些文字较明显的部分。但是在深度学习出来之后,在CNN巨大参数面前,这些“手动学习”,“手动设计”设计的特征就变得效果不是那么好了。以深度学习目标检测为代表的一些工作碾压性的战胜的一些传统算法。