基于华为云(鲲鹏)云服务器部署文字识别tesseract项目
目录
1.实验概述
1.1实验目标
1. 在华为云CentOS系统的ARM(鲲鹏)云服务器ECS实例上,安装 tesseract;体验通过源
码在鲲鹏云服务器上安装软件;
2. 在华为云CentOS系统的ARM(鲲鹏)云服务器ECS实例上,使用tesseract 识别图片中的
文字
1.2 前提条件
1、 购买并创建华为云ARM(鲲鹏)Linux弹性云服务器,详细规格信息如下图所示。
2、 弹性云服务器需要绑定弹性公网IP;
3、 本地已经安装用于连接 Linux 弹性云服务器的工具。
2 部署开始
2.1 登录弹性云服务器
登录弹性云服务器公网IP,直接通过xshell7登录 ECS 服务器,打开 ESC 命令行环境,如下图所示:
2.2 安装依赖的基础组件
配置tesseract所依赖的环境,包含构建系统的工具automake 、创建库的工具libtool、C++编译器,png图片库、jpeg图片库、tiff图片库等
yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel –y
2.3 下载leptonica源码包
下载tesseract依赖的图像处理库leptonica源码包,利用leptonica源码包中这些库可实现开源tesseract字符识别库的静态编译。
wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
使用winscp上传也可以
2.4 解压leptonica
解压leptonica文件
tar -xvf leptonica-1.78.0.tar.gz
2.5 编译和安装leptonica
进入目录:leptonica-1.78.0,在该目录下进行编译和安装leptonica。
cd leptonica-1.78.0
./configure --prefix=/usr/ && make -j4 && make install
2.6 配置leptonica涉及的环境变量
(1)导入环境变量
导入环境变量,使其他服务在任何地方都能引用该lib库执行以下命令:
vi /etc/profile
点击 i 键进入编辑模式,点击 shift+g 进入该配置文件的最后,加入如下内容
export PKG_CONFIG_PATH=/usr/lib/pkgconfig
(2)令环境变量有效
执行以下命令使环境变量有效,(ldconfig是一个动态链接库管理命令,其目的为了
让动态链接库为系统所共享)
source /etc/profile
ldconfig
3 配置tesseract
3.1 下载tesseract源码包
拷贝代码:
cd /usr/local/src
wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz
3.2 解压tesseract源码包
tar -xvf 4.0.0.tar.gz
3.3 编译和安装tesseract
进入目录:tesseract-4.0.0,在该目录下进行安装和编译;
cd tesseract-4.0.0
执行以下命令:
./autogen.sh && ./configure && make -j4 && make install
4 下载语言包
4.1 下载英文语言包
进入root目录
cd /root
wget --no-check-certificate https://github.com/tesseractocr/tessdata/raw/master/eng.traineddata
4.2 下载中文语言包
进入root目录
cd /root
执行以下命令:
wget --no-check-certificate https://github.com/tesseractocr/tessdata/raw/master/chi_sim.traineddata
可以用winscp上传
4.3 将语言包复制到对应的目录
tesseract语言包需要存放在usr/local/share/tessdata,以便于tesseract识别。
cp eng.traineddata /usr/local/share/tessdata -r
cp chi_sim.traineddata /usr/local/share/tessdata –r
5 下载kunpeng文字图片进行demo测试
5.1 英文测试
将图片下载至服务器,然后输入命令,让系统自动识别图片内容,最后得出结果。
(1) 将图片下载至服务器执行以下命令:
Wget https://portal-www-software.obs.cn-north1.myhuaweicloud.com:443/kunpeng.bmp
使用winscp上传
(2) 识别图片中的内容并将其存放在result中
拷贝代码:
tesseract kunpeng.bmp result
cat result.txt
5.2 中文测试
将图片下载至服务器,然后输入命令,让系统自动识别图片内容,最后得出结果。
(1) 将图片下载至服务器执行以下命令:
拷贝代码:
wget https://portal-www-software.obs.cn-north1.myhuaweicloud.com:443/kunpeng_chi.bmp
使用winscp上传
(2) 识别图片中的内容并将其存放在result中
命令:
tesseract -l chi_sim kunpeng_chi.bmp res_chi
cat res_chi.txt
至此,成功。识别的文字取决于你上传的图片!
实验结束,释放资源!