码农武：用Python爬取起点小说网小说步骤 - 悦读

码农武：用Python爬取起点小说网小说步骤

爬取起点小说网

安装requests库

用到的方法：get(),post()方法

爬取步骤：

（1）导入requests库

（2）确定url（爬取目标的地址）

起点小说网

（3）使用requests发起请求，保存响应

（4）打印状态码

200代表状态正常，请求成功

（5）查看响应源码

（6）添加请求头

目的：伪装成浏览器

（7）使用解析工具--Xpath

安装lxml库

可能遇到的问题：

pip版本级别低：pip install --upgrade pip

网络问题：多次安装

（8）解读XML结构

（9）使用XPath选取节点

（10）选取需要的内容

1.选取排行榜标题

LXML练习：

利用XPath,选取所有的作者

(11)程序中，使用XPath

1.导入LXML库

解决方式：

2.etree的作用，把获取到的数据，整理成咱们XML结构

3.获取小说名称

4.（练习）获取作者

（12）整合数据

（13）数据的存储

获取到的数据，存储到excel表格中

1.使用python操作excel表格，需要引用第三方库openpyxl

安装

pip install openpyxl

导入：

2.借助第三方库，操作excel文件

创建excel文件

扩展练习：

爬取单独一章小说内容

爬取整本小说内容

解决乱码问题：

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

java 创建utf8 文件_Java生成一个UTF-8文件

前端技术搭建拼图小游戏（内含源码）

用php 处理 xls和xlsx (简单版)

Web学习云道首页案例

局域网（体系、IEEE 802 标准）

微前端框架篇一，了解qiankun

关于微信小程序认证问题

考研数据结构算法题总结

深入浅出 GAN·原理篇文字版（完整）| 干货

;