Bootstrap

python提取pdf中的文字和图片_第一节:python提取PDF文档中的图片

1、安装第三方类库pymupdf:pip install pymupdf

2、安装完成后直接上代码,代码如下:

import fitz

import time

import re

import os

def pdf2pic(path, pic_path):

t0 = time.clock() # 生成图片初始时间

checkXO = r"/Type(?= */XObject)" # 使用正则表达式来查找图片

checkIM = r"/Subtype(?= */Image)"

doc = fitz.open(path) # 打开pdf文件

imgcount = 0 # 图片计数

lenXREF = doc._getXrefLength() # 获取对象数量长度

# 打印PDF的信息

print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))

# 遍历每一个对象

for i in range(1, lenXREF):

text = doc._getXrefString(i) # 定义对象字符串

isXObject = re.search(checkXO, text) # 使用正则表达式查看是否是对象

isImage = re.search(checkIM, text) # 使用正则表达式查看是否是图片

if not isXObject or not isImage: # 如果不是对象也不是图片,则continue

continue

imgcount

;