概述
我是正经人,为了爬取不那么枯燥迫不得已爬取写真哈哈哈,不啰嗦 直接上代码,再解释
代码
1.准备工作
1.1导入lxml模块解析url
1.2导入OS模块创建一个文件存储下载的图片
import requests
from lxml import etree
import os
from concurrent.futures import ThreadPoolExecutor
#创建一个文件夹存储图片
if not os.path.exists('./plmm'):
os.mkdir('./plmm')
2.解析数据
url = "https://pic.netbian.com/"
几百页的图片如果采取单线程爬取似乎有点慢,所以用线程池来加快进度
这些超链接可以用xpath表达式提取
第一页的url是:
https://pic.netbian.com/4kmeinv/index_1.html
第二页的url是:
https://pic.netbian.com/4kmeinv/index_2.html
所以在我们提交到线程时直接将url格式化为:
f"https://pic.netbian.com/4kmeinv/index_{i}.html