python爬虫之爬取起点中文网小说
hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手
⬆是项目的部分源码
准备工作
用到的库有:
- urllib.request
- lxml.etree
代码分析
- 第一步:导入要用到的库
from urllib import request
from lxml import etree
2.第二步:设置请求头及小说网址(这里的网址以作者写的一本为例)
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url="https://book.qidian.com/info/1020546097"
3.第三步:爬取每个章节的链接、标题,并解析
req = request.Request(url, headers=header)
html = request.urlopen(req).read().decode('utf-8')
html = etree.HTML(html)
Lit_tit_list = ht