Bootstrap

Python爬虫爬取网站信息的基本流程

爬虫的基本流程



1. 向网页发起请求
2. 获取获取网页源码
3. 通过正则或者Xpath表达式提取规律信息
4. 获取数据

以本人刚学爬虫时写的代码为案例
在这里插入图片描述



运行基本流程

  • 请求网址:爬虫通过请求网址获取网页源码 。 图中蓝色部分表示请求网站并获取其源码 获取的源文件就为网页右键——查看源文件 中的代码一致
  • 拆分源码:在爬取出的源码中找出自己想要的规律信息,如下图获取网页图片信息:
    在这里插入图片描述
  • 获取数据:获取数据后可以将数据保存到数据库,制作图表进行数据分析,或者批量下载图片等等,后续有时间都会持续更新

代码如下(示例):

import requests
;