介绍:
爬虫,就是一段自动抓取互联网信息的程序,可从互联网上抓取对我们有价值的数据。
常用的库有:urllib,beautifulsoup等
urllib基于请求返回文本信息进行解析,beautifulsoup基于界面标签进行解析
这里详细说明下urllib的用法。
python2和python3对应的urllib库不同,分别对应urllib2和urllib。具体使用可按版本进行搜索。本文以python3对应urllib来说明
应用场景及分析方法:
我需要在某系统内查询相应的信息,并获取结果。
系统查询数据请求需要判断用户权限,因此需要cookie等用户信息,且每次登陆cookie会改变,⬇️要自动保存cookie,一劳永逸。
首先使用谷歌浏览器模式,打开network,勾选preserve log,在界面里对要访问的链接进行操作,随后在log里查看分析,以CSDN查询本人原创文章进行举例。
可以看到查询原创文章request是get方法。再来看一下request的头hearders和上传参数Parameters: