Bootstrap

OCR 预处理与检测

前言:

通用OCR领域的最难的是预处理与检测,目标检测领域我们常看到的是横平竖直, 也就是说:检测到的边框平行或垂直于图像边界。

但是,在OCR中,文字的方向可以是各种方向;而且长宽比不确定,各种场景,各种尺寸、各种语言、各种艺术字体。而且,目前多角度检测fatal 弱点:文本行比较长,检测框容易断裂; 阵列字极容易找错方向。 当然手写OCR也很难,本文主要对 preprocessdetecton展开讨论, recognition在上一个博客中详细说明 LSTM 与 CTC loss (以及DP、HMM)

1- Detection (Multi-angle vs line detection)

;