from PIL import ImagePytesseract-windows安装
Tesseract的github地址:tesseract-ocr/tesseract
Tesseract的安装:
(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: Index of /tesseract
下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path,添加下面的安装路径:
C:\Program Files\Tesseract-OCR
安装完成之后,直接cmd输入:
命令:
tesseract -v
输出如下,即代表成功:
tesseract 4.0.0-beta.1-108-gf291
可能遇到错误1:
windows下使用pytesseract模块进行文本识别出现错误如下:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path
解决:代码中加入如下行:
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
(引号中是tesseract.exe的路径,如果未安装,请参照以下步骤)
PS:你可能会查到修改pytesseract.py中的tesseract_cmd,然而并没有什么卵用,应为\t在win10下不同的IDE会出现不同的抽搐,我用的是Jupyter。
可能遇到的错误2:
好不容易不报路径错误了,结果发现没有文中字库:
'F\n\n \n\n \n\n \n\n \n\nae\nAma PRB tks ; arte\ng kn)\nR1065°7925000~ ae\n6108 8 HERTICH A HIED 56. 825\nK1120+557 eS\n1) 25\nK1033+938— ay\nS304 28 CMR MAIR 30. 567\nk1094+905 ee'
安装:
将.traineddata
文件复制到 **\Tesseract-OCR\tessdata
路径下。
from PIL import Image
import pytesseract
import cv2 as cv
img = Image.open('E:/test.png')
pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
s = pytesseract.image_to_string(img, lang='chi_sim')
终于,通过其他方式搞定表格识别了,开始撸小程序的前端。