Python爬虫爬取网站信息的基本流程 - 悦读

Python爬虫爬取网站信息的基本流程

爬虫的基本流程

1. 向网页发起请求
2. 获取获取网页源码
3. 通过正则或者Xpath表达式提取规律信息
4. 获取数据

以本人刚学爬虫时写的代码为案例
在这里插入图片描述

运行基本流程

请求网址：爬虫通过请求网址获取网页源码。图中蓝色部分表示请求网站并获取其源码获取的源文件就为网页右键——查看源文件中的代码一致
拆分源码：在爬取出的源码中找出自己想要的规律信息，如下图获取网页图片信息：
获取数据：获取数据后可以将数据保存到数据库，制作图表进行数据分析，或者批量下载图片等等，后续有时间都会持续更新

代码如下（示例）：

import requests

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

C语言中数组为形参的理解

MoonNet网络库文档

Java项目实战II基于微信小程序的私家车位共享系统（开发文档+数据库+源码）

stable-diffusion-webui 之 Codeformer

Java-数据结构-ArrayLis与线性表 (๑╹◡╹)ﾉ“““

汇编指令RL和RLC区别

利用Python中的openpyxl/Pandas库操作excel

分布式系统详解--基础知识（概论）

Java图形化界面输入输出

;