Bootstrap

python多线程爬取4k高清美女图片

概述

 我是正经人,为了爬取不那么枯燥迫不得已爬取写真哈哈哈,不啰嗦 直接上代码,再解释

代码

1.准备工作

1.1导入lxml模块解析url

1.2导入OS模块创建一个文件存储下载的图片

import requests
from lxml import etree
import os
from concurrent.futures import ThreadPoolExecutor

#创建一个文件夹存储图片
if not os.path.exists('./plmm'):
        os.mkdir('./plmm')

2.解析数据

url = "https://pic.netbian.com/"

几百页的图片如果采取单线程爬取似乎有点慢,所以用线程池来加快进度

这些超链接可以用xpath表达式提取

第一页的url是:

https://pic.netbian.com/4kmeinv/index_1.html

第二页的url是:

https://pic.netbian.com/4kmeinv/index_2.html

所以在我们提交到线程时直接将url格式化为:

f"https://pic.netbian.com/4kmeinv/index_{i}.html
;