Bootstrap

基于华为云(鲲鹏)服务器部署文字识别tesseract项目

基于华为云(鲲鹏)云服务器部署文字识别tesseract项目

目录

1.实验概述

1.1实验目标

1.2 前提条件

​2 部署开始

2.1 登录弹性云服务器

2.2 安装依赖的基础组件

2.4 解压leptonica     

2.5 编译和安装leptonica  

2.6 配置leptonica涉及的环境变量 

3 配置tesseract

3.1 下载tesseract源码包

3.2 解压tesseract源码包

 3.3 编译和安装tesseract

4 下载语言包 

4.1 下载英文语言包

 4.2 下载中文语言包

4.3 将语言包复制到对应的目录

5 下载kunpeng文字图片进行demo测试 

5.1 英文测试

5.2 中文测试


1.实验概述

1.1实验目标

1. 在华为云CentOS系统的ARM(鲲鹏)云服务器ECS实例上,安装 tesseract;体验通过源

码在鲲鹏云服务器上安装软件;

2. 在华为云CentOS系统的ARM(鲲鹏)云服务器ECS实例上,使用tesseract 识别图片中的

文字

1.2 前提条件

1、 购买并创建华为云ARM(鲲鹏)Linux弹性云服务器,详细规格信息如下图所示。 

2、 弹性云服务器需要绑定弹性公网IP;

3、 本地已经安装用于连接 Linux 弹性云服务器的工具。

2 部署开始

2.1 登录弹性云服务器

登录弹性云服务器公网IP,直接通过xshell7登录 ECS 服务器,打开 ESC 命令行环境,如下图所示:

2.2 安装依赖的基础组件

配置tesseract所依赖的环境,包含构建系统的工具automake 、创建库的工具libtool、C++编译器,png图片库、jpeg图片库、tiff图片库等

yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y

 2.3 下载leptonica源码包

下载tesseract依赖的图像处理库leptonica源码包,利用leptonica源码包中这些库可实现开源tesseract字符识别库的静态编译。

​wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

使用winscp上传也可以

2.4 解压leptonica     

解压leptonica文件

tar -xvf leptonica-1.78.0.tar.gz

2.5 编译和安装leptonica  

进入目录:leptonica-1.78.0,在该目录下进行编译和安装leptonica。

cd leptonica-1.78.0

./configure --prefix=/usr/ &&  make -j4 && make install

2.6 配置leptonica涉及的环境变量 

(1)导入环境变量 

导入环境变量,使其他服务在任何地方都能引用该lib库执行以下命令:

vi /etc/profile

点击 i 键进入编辑模式,点击 shift+g 进入该配置文件的最后,加入如下内容

export PKG_CONFIG_PATH=/usr/lib/pkgconfig

 (2)令环境变量有效

执行以下命令使环境变量有效,(ldconfig是一个动态链接库管理命令,其目的为了

让动态链接库为系统所共享)

source /etc/profile

ldconfig

3 配置tesseract

3.1 下载tesseract源码包

拷贝代码:

​cd /usr/local/src

wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz

3.2 解压tesseract源码包

tar -xvf 4.0.0.tar.gz

 3.3 编译和安装tesseract

进入目录:tesseract-4.0.0,在该目录下进行安装和编译;

cd tesseract-4.0.0

执行以下命令:

./autogen.sh && ./configure  && make -j4 && make install

4 下载语言包 

4.1 下载英文语言包

进入root目录

​cd /root

wget --no-check-certificate https://github.com/tesseractocr/tessdata/raw/master/eng.traineddata

 4.2 下载中文语言包

进入root目录

cd /root

执行以下命令:

wget --no-check-certificate https://github.com/tesseractocr/tessdata/raw/master/chi_sim.traineddata 

可以用winscp上传

4.3 将语言包复制到对应的目录

tesseract语言包需要存放在usr/local/share/tessdata,以便于tesseract识别。

cp eng.traineddata /usr/local/share/tessdata -r

cp chi_sim.traineddata /usr/local/share/tessdata –r

5 下载kunpeng文字图片进行demo测试 

5.1 英文测试

将图片下载至服务器,然后输入命令,让系统自动识别图片内容,最后得出结果。

(1) 将图片下载至服务器执行以下命令:

Wget https://portal-www-software.obs.cn-north1.myhuaweicloud.com:443/kunpeng.bmp

使用winscp上传

(2) 识别图片中的内容并将其存放在result中

拷贝代码:

tesseract kunpeng.bmp result

cat result.txt

5.2 中文测试

将图片下载至服务器,然后输入命令,让系统自动识别图片内容,最后得出结果。

(1) 将图片下载至服务器执行以下命令:

拷贝代码:

wget https://portal-www-software.obs.cn-north1.myhuaweicloud.com:443/kunpeng_chi.bmp

使用winscp上传

 (2) 识别图片中的内容并将其存放在result中 

命令:

tesseract -l chi_sim kunpeng_chi.bmp res_chi

cat res_chi.txt

至此,成功。识别的文字取决于你上传的图片!

实验结束,释放资源! 

 

;