Bootstrap

python爬虫之爬取起点中文网小说

python爬虫之爬取起点中文网小说

hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手
在这里插入图片描述
⬆是项目的部分源码

准备工作

用到的库有:

  • urllib.request
  • lxml.etree

代码分析

  1. 第一步:导入要用到的库
from urllib import request
from lxml import etree

2.第二步:设置请求头及小说网址(这里的网址以作者写的一本为例)

header = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url="https://book.qidian.com/info/1020546097"

3.第三步:爬取每个章节的链接、标题,并解析

req = request.Request(url, headers=header)
html = request.urlopen(req).read().decode('utf-8')
html = etree.HTML(html)
Lit_tit_list = ht
;