Bootstrap

python 爬虫 urllib,自动保存cookie

介绍:

爬虫,就是一段自动抓取互联网信息的程序,可从互联网上抓取对我们有价值的数据。

常用的库有:urllib,beautifulsoup等

urllib基于请求返回文本信息进行解析,beautifulsoup基于界面标签进行解析

这里详细说明下urllib的用法。

python2和python3对应的urllib库不同,分别对应urllib2和urllib。具体使用可按版本进行搜索。本文以python3对应urllib来说明

应用场景及分析方法:

我需要在某系统内查询相应的信息,并获取结果。

系统查询数据请求需要判断用户权限,因此需要cookie等用户信息,且每次登陆cookie会改变,⬇️要自动保存cookie,一劳永逸。

首先使用谷歌浏览器模式,打开network,勾选preserve log,在界面里对要访问的链接进行操作,随后在log里查看分析,以CSDN查询本人原创文章进行举例。

可以看到查询原创文章request是get方法。再来看一下request的头hearders和上传参数Parameters:

;