Python 中文文本识别+图片表格识别

from PIL import ImagePytesseract-windows安装

Tesseract的github地址：tesseract-ocr/tesseract

Tesseract的安装：

（1）Tesseract本身没有windows的安装包，不过它指定了一个第三方的封装的windows安装包，在其wiki上有说明，大家可直接到这个地址进行下载： Index of /tesseract

下载后就是一个exe安装包，直接右击安装即可，安装完成之后，配置一下环境变量，编辑系统变量里面 path，添加下面的安装路径：

C:\Program Files\Tesseract-OCR

安装完成之后，直接cmd输入：

命令：
tesseract -v
输出如下，即代表成功：
tesseract 4.0.0-beta.1-108-gf291

可能遇到错误1：

windows下使用pytesseract模块进行文本识别出现错误如下：

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path

解决：代码中加入如下行：

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

（引号中是tesseract.exe的路径，如果未安装，请参照以下步骤）

PS：你可能会查到修改pytesseract.py中的tesseract_cmd，然而并没有什么卵用，应为\t在win10下不同的IDE会出现不同的抽搐，我用的是Jupyter。

可能遇到的错误2：

好不容易不报路径错误了，结果发现没有文中字库：

'F\n\n \n\n \n\n \n\n \n\nae\nAma PRB tks ; arte\ng kn)\nR1065°7925000~ ae\n6108 8 HERTICH A HIED 56. 825\nK1120+557 eS\n1) 25\nK1033+938— ay\nS304 28 CMR MAIR 30. 567\nk1094+905 ee'

安装：

将.traineddata文件复制到 **\Tesseract-OCR\tessdata路径下。

from  PIL import  Image
import pytesseract
import  cv2 as cv
img = Image.open('E:/test.png')
pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
s = pytesseract.image_to_string(img, lang='chi_sim')

终于，通过其他方式搞定表格识别了，开始撸小程序的前端。