Bootstrap

Python3爬虫学习——urlib库笔记

Python3爬虫学习——urllib库

前言

本笔记仅个人认知和见解,水平有限,还请见谅。

内容大多来自Python文档和学习材料,作相应的扩充或压缩后的笔记。

没有很多实例,大多是理论知识


urllib库概述

urllib库是python内置库,利用它就可以实现HTTP请求发送,而不需要关心HTTP链接是如何实现的,我们只需要给定指定的URL、请求头和请求体等信息即可。

urllib库包含四个模块:

  • request:基本的HTTP请求模块,可以模拟浏览器发送请求。

  • error:异常处理模块,可以被我们用于捕获异常。

  • parse:工具模块,提供了众多URL处理方法。

  • robotparser:用于识别网站的robots.txt文件,并判断哪些网站可以爬,哪些网站不能爬。

1.用request发送请求

request库不仅可以模拟浏览器的请求发起过程,同时还具有处理授权验证(Authentication)、重定向(Redirection)、浏览器Cookie等功能。

urlopen

首先是urlopen方法的API:urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

首先是基础用法:response = urllib.request.urlopen('https://www.python.org')

其中urlopen只由第一个参数URL,即网址,这是唯一必须指定的内容,是请求的目标站点。urlopen返回一个HTTPResponse类型的对象,储存在response里。这个用法完成了对Python官网的GET请求。

urlopen的其他参数:

  • data参数:传递该参数则表示进行POST请求,传递的内容是POST请求中的表单信息。在传递前要用bytes方法将参数转化为字节流编码格式的内容(bytes类型)。传递字典类型的数据时,应先用urllib.parse.urlencode方法进行编码。

  • timeout参数:用于设置超时时间,单位为秒。如果超过设置的时间,则发生异常。如果不指定则实用全局默认时间。超时的异常是urllib.error.URLError,其错误原因是超时,查看异常的属性reason,得到socket.timeout,意思是超时异常。

  • context参数:指定SSL的设置,参数必须是ssl.SSLContext类型。

  • cafile参数和capath参数:用于指定CA证书和其路径,用于HTTPS链接请求。

  • cadefault参数:已经弃用,可以不管,默认值为False。

Request

Request类的构造方法:class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

参数说明:

  • url:唯一必须参数,指定请求URL。

  • data:同urlopen,传输bytes类型的数据。

  • headers:headers是个字典,即请求头。既可以直接在写Request类时写这个选项的内容,也可以通过调用实例的方法add_header方法添加。通常User-Agent来伪装浏览器(默认的User-Agent为Python-urllib)。

  • origin_req_host:请求方(己方)的host名或IP地址。

  • unverifiable:表示请求是否是无法验证的。True表示确实无法验证。

  • method:请求使用的方法,类型是一个字符串,比如GET、POST。

学习小笔记:

其实这里我是完全不理解unverifiable这个参数到底是什么意思,到底是无法验证是True还是可以验证是True。所以在网上搜的时候,我发现大家的说法和书上都是一样的,“指请求无法验证,默认为 False。用户并没有足够的权限来选择接收这个请求结果,例如请求一个 HTML 文档中的图片,但没有自动抓取图像的权限,这时 unverifiable 为 True。”我觉得很离谱,原来大家都喜欢抄书,后来去python的documentation看到了原文,原来书上的东西很多都是文档里翻译来的,这句话疑似是机翻的,有点奇奇怪怪的,但是话倒是说的比较明白,“所谓无法验证的请求,是指用户没有机会对请求的 URL 做验证。”结合图片那个例子,大概就是True无法验证。

urlopen与Request的关系与小结

urllib是urllib.request的一个方法,用于获得网站响应,响应是HTTPResponse类型的对象;Request是一个类,用于构建简单的Request对象,即请求内容。Request对象可以作为参数传入urlopen方法,如此可以使用比较完整的请求获得网站响应。

对于urlopen和Request的data参数,都需要byte类型数据(字节流编码格式),于是需要byte()方法将参数转为字节流编码格式,如果是字典类型,需要先用urllib.parse.urlencode方法将字典转为字符串。

Request类的headers参数,是字典类型的数据,既可以在构建Request类时候就指定,也可以使用add_header()方法添加。

urlopen与Request的关系

Handler与OpenerDirector

Handler

Handler可以当作Request的升级版,可以管理网站验证,代理,Cookie等Request类难以管理的请求。Handler类有一个大爹:BaseHandler类,是所有Handler类的父类。其子类有如下几类比较常用:[(源自Python文档)](urllib.request — 用于打开 URL 的可扩展库 — Python 3.9.14 文档)

  • HTTPDefaultErrorHandler:为 HTTP 错误响应定义的默认 handler,所有出错响应都会转为 HTTPError 异常。

  • HTTPRedirectHandler:一个用于处理重定向的类。

  • HTTPCookieProcessor(cookiejar=None):一个用于处理 HTTP Cookies 的类。

  • ProxyHandler(proxies=None):用于设置代理,默认代理为空。

  • HTTPPasswordMgr:维护 (realm, uri) -> (user, password) 映射数据库。即用于管理密码,维护用户名密码对照表。

  • HTTPPasswordMgrWithDefaultRealm:维护 (realm, uri) -> (user, password) 映射数据库。realm 为 None 视作全匹配,若没有其他合适的安全区域就会检索它。

  • HTTPPasswordMgrWithPriorAuth:HTTPPasswordMgrWithDefaultRealm 的一个变体,也带有 uri -> is_authenticated 映射数据库。可被 BasicAuth 处理函数用于确定立即发送身份认证凭据的时机,而不是先等待 401 响应。

  • HTTPBasicAuthHandler(password_mgr=None):处理远程主机的身份认证。 password_mgr 应与 HTTPPasswordMgr 兼容;如果给出错误的身份认证方式, HTTPBasicAuthHandler 将会触发 ValueError 。

OpenerDirector

OpenerDirector对象封装了请求方法,比如urlopen就是比较简单的请求方法。构建更高级的请求,需要用到更底层的实例完成,即OpenerDirector。OpenerDicrector有以下常用方法:[(源自Python文档)](urllib.request — 用于打开 URL 的可扩展库 — Python 3.9.14 文档)

  • OpenerDirector.add_handler(handler):handler 应为 BaseHandler 的实例。将检索以下类型的方法,并将其添加到对应的处理链中(注意 HTTP 错误是特殊情况)。<protocol>代表协议,如http,<type>为实际HTTP代码。

    • <protocol>_open() — 表明该 handler 知道如何打开 protocol 协议的URL

    • http_error_<type>() — 表明该 handler 知道如何处理代码为 type 的 HTTP 错误。

    • <protocol>_error() — 表明该 handler 知道如何处理来自协议为 protocol (非http)的错误。

    • <protocol>_request() — 表明该 handler 知道如何预处理协议为 protocol 的请求。

    • <protocol>_response() — 表明该 handler 知道如何后处理协议为 protocol 的响应。

  • *OpenerDirector*.open(url, data=None[, timeout]):用于打开URL,其返回值和错误类型与urlopen()方法相同。超时选项仅适用于HTTP,HTTPS和FTP。

还有构建OpenerDirector的方法:

urllib.request.build_opener([handler, ...]):返回一个 OpenerDirector 实例,以给定顺序把处理函数串联起来。处理函数可以是 BaseHandler 的实例,也可以是 BaseHandler 的子类(这时构造函数必须允许不带任何参数的调用)。

关系

使用build_opener方法构建OpenerDirector实例,然后利用OpenerDirector实例的方法open()打开URL,得到网站响应。
Handler和OpenerDirector的关系

HTTPPasswordMgr 对象与HTTPPasswordMgrWithDefaultRealm 对象

HTTPPasswordMgr 对象与HTTPPasswordMgrWithDefaultRealm 对象都有以下方法:

  • HTTPPasswordMgr.add_password(realm, uri, user, passwd)
    uri 可以是单个 URI,也可以是 URI 列表。realm、user 和 passwd 必须是字符串。这使得在为 realm 和超级 URI 进行身份认证时,(user, passwd) 可用作认证令牌。

  • HTTPPasswordMgr.find_user_password(realm, authuri)
    为给定 realm 和 URI 获取用户名和密码。如果没有匹配的用户名和密码,本方法将会返回 (None, None) 。对于 HTTPPasswordMgrWithDefaultRealm 对象,如果给定 realm 没有匹配的用户名和密码,将realm设为None。

这两个对象主要用于解决请求网站时,网站开启了基本身份认证(HTTP Basic Access Authentication)。可以在实例化对象时就给定(realm, uri, user, passwd)的内容。

ProxyHandler 对象

ProxyHandler({'协议类型':'代理链接','协议类型':'代理链接',...})即可构建一个ProxyHandler实例。然后用上图的方法可以发送请求。

Cookie处理
CookieJar对象

CookieJar对象包含在http.cookiejar内,需要先import。创建实例的方法:cookie = http.cookiejar.CookirJar()。这样创建出来的是一个空Cookie,可以用于Handler构建并用于请求网站,以此获得Cookie。

HTTPCookieProcessor 对象

用于构建handler,用法:handler = urllib.request.HTTPCookieProcessor(CookieJar)

MozillaCookieJar对象

MozillaCookieJar对象是CookieJar的子类,用于处理与Cookie和文件相关的事件如读取和保存。对于的文件格式是Mozilla型浏览器Cookie格式(cookies.txt文件格式)。用法:

  • 创建/打开:cookie = http.cookiejar.MozillaCookieJar(filename)
LWPCookieJar对象

与MozillaCookieJar对象类似,LWPCookieJar对象用于处理LWP(libwww-perl)格式(Set-Cookie3文件格式)的Cookie的读取和保存。

  • 创建/打开: cookie = http.cookiejar.LWPCookieJar(filename)
MozillaCookieJar对象与LWPCookieJar对象的共同方法

加载:cookie.load(filename=None, ignore_discard=False, ignore_expires=False)ignore_discard: 若为True,即使设定了丢弃 cookie 仍然保存它们,意思是保存会话Cookie。 ignore_expires: 若为True,即使 cookie 已超期仍然保存它们。旧的 cookie 将被保留,除非是被新加载的 cookie 所覆盖。

保存:cookie.save(filename=None, ignore_discard=False, ignore_expires=False)ignore_discard: 若为True,即使设定了丢弃 cookie 仍然保存它们,意思是保存会话Cookie。 ignore_expires: 若为True,即使 cookie 已超期仍然保存它们。文件如果已存在则会被覆盖,这将清除其所包含的全部 cookie。 已保存的 cookie 可以使用 load() 或 revert() 方法来恢复。

其他方法见Python文档

2.在error模块处理错误

URLError

URLError类来自urllib库的error模块,其父类是OSError类,由request模块产生的异常都可以由通过捕获这个处理。

用法:exception urllib.error.URLError as objectname

其属性只有一个:reason,即返回错误的原因(如Not Found)。

HTTPError

HTTPError是URLError的子类之一,专门处理HTTP请求错误(如认证请求等特殊HTTP错误)。

用法:exception urllib.error.HTTPError as objectname

属性:

  • code:返回HTTP状态码,如404等,

  • reason:返回错误原因(如Not Found)。

  • headers:返回请求头

需要注意,reason的返回值有可能不是字符串类,有可能是一个对象,如超时错误的返回值

try:
    response = urllib.request.urlopen('https://emorepitg.top', timeout=0.01)
except urllib.error.URLError as e:
    print(type(e.reason))
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')
        
<class 'socket.timeout'>
TIME OUT

如上,超时错误的reason属性是一个socket.timeout类,可以用isinstance方法检查来判单是否是超时错误。也可以直接打印reason属性,因为这个类的附带值是一个字符串,其值总是 “timed out”。

3.利用parse解析URL

urllib内的parse模块提供了若干解析URL的方法,它支持的URL协议有:file, ftp, gopher, hdl, http, https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh, telnet, wais, ws, wss.

urlparse方法和urlunparse方法

urlparse方法

该方法对URL解析,然后输出解析结果的类型(urllib.parse.ParseResult)以及结果本身(字符串)。

用法:urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

传入字符型URL,在URL没有指定协议的时候用scheme指定协议(如果URL没有协议的时候用scheme指定协议,则解析后的netloc会被放在path内,是个很奇怪的问题,由于没有实战,并不知道其作用,留疑)。

print(urllib.parse.urlparse('https://docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse'))
ParseResult(scheme='https', netloc='docs.python.org', path='/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')
print(urllib.parse.urlparse('docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse',scheme='https'))
ParseResult(scheme='https', netloc='', path='docs.python.org/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')

解析出的结果是ParseResult类型对象,包含六个部分:

scheme0URL协议scheme 参数
netloc1网络位置部分空字符串
path2分层路径空字符串
params3No longer usedalways an empty string
query4查询组件空字符串
fragment5片段识别空字符串
urlunparse方法

urlparse的对立方法,将上述六个参数构造成URL。参数可以是列表类型,也可以是元组等,但必须是长度为6的可迭代对象,其返回值是一个字符串。

用法:urllib.parse.urlunparse(parts)

urlsplit方法和urlunsplit方法

与urlparse方法和urlunparse方法类似,urlsplit方法可以解析URL,但是这一方法不再单独解析params这一个部分,而是合并到path中去。其返回值是一个urllib.parse.SplitResult类。同样地,urlunsplit只需要五个参数即可。

urljoin方法

通过合并一个 “基准 URL” (base) 和另一个 URL (url) 来构造一个完整 (“absolute”) URL。

用法:urllib.parse.urljoin(base, url, allow_fragments=True)

>>> urllib.parse.urljoin('https://www.emorepitg.top/index.html','?category=2')
'https://www.emorepitg.top/index.html?category=2'
>>> urllib.parse.urljoin('https://www.emorepitg.top/index.html','https://www.csdn.net/index.php?category=2')
'https://www.csdn.net/index.php?category=2'

“基准URL”提供scheme、netloc和path三个参数(即https://emorepitg.top/index.html),如果“另一个URL“不存在这三项,就用”基准URL“去补,如果”另一个URL“存在这三个参数,”基准URL”的内容就不起作用

urlencode方法和parse_qs\parse_qsl方法
urlencode方法

将字典类型转化为URL适用的字符串类型,即将字典转为key=value 对,并用是&连接的字符串。

用法:urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)

当使用二元组序列作为 query 参数时,每个元组的第一个元素为键而第二个元素为值。 值元素本身也可以为一个序列,在那种情况下,如果可选的形参 doseq 的值为 True,则每个键的值序列元素生成单个 key=value 对(以 ‘&’ 分隔)。 被编码的字符串中的参数顺序将与序列中的形参元素顺序相匹配。

safe, encoding 和 errors 形参会被传递给 quote_via (encoding 和 errors 形参仅在查询元素为 str 时会被传递)。

parse_qs方法

将链接中用&连接的key=value对转化为字典类型,但是需要注意的是,字典的值是一个列表。

>>> urllib.parse.parse_qs('name=Emore&age=20')
{'name': ['Emore'], 'age': ['20']}
>>> type(urllib.parse.parse_qs('name=Emore&age=20')['name'])
list
parse_qsl方法

同上parse_qs方法。将链接中用&连接的key=value对转化为元组类型的列表。

>>> urllib.parse.parse_qsl('name=Emore&age=20')
[('name', 'Emore'), ('age', '20')]

quote方法和unquote方法

quote方法

quote方法将URL中的中文转化为URL编码的格式。

>>> urllib.parse.quote('甲寅')
'%E7%94%B2%E5%AF%85'
unquote方法

quote方法的对立方法,将URL编码格式转化为中文(解码)

4.分析robotparser模块

urllib.robotparser是robots.txt语法分析模块。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robotparser类的方法

urllib.robotparser.RobotFileParser(url='')
这个类提供了一些可以读取、解析和回答关于 url 上的 robots.txt 文件的问题的方法。

set_url(url)
设置指向 robots.txt 文件的 URL。RobotFileParser对象创建时没有给url时调用来设置url。

read()
读取 robots.txt URL 并将其输入解析器。需要注意,如果获得了RobotFileParser对象但是没有调用过read方法,则别的所有解析方法返回值都是False,所以一定要记得调用。

parse(lines)
解析行参数。

can_fetch(useragent, url)
判断useragent是否可以抓取url,返回True或False。

mtime()
返回最近一次获取 robots.txt 文件的时间。 这适用于需要定期检查 robots.txt 文件更新情况的长时间运行的网页爬虫。

modified()
将最近一次获取 robots.txt 文件的时间设置为当前时间。

总结

至此,urllib库的四个模块大致学习完毕,其中有一些小地方需要注意的。

  • urllib.request模块中,data参数需要用byte类型

  • urllib.request.Request模块中,headers参数是字典类型

  • 搞清楚request和urlopen的关系,Handler与OpenerDirector的关系

  • urlparse方法在URL没有带scheme时,将scheme以参数导入,netloc会跑到path内

  • urlunparse方法必须是六个参数的可迭代对象

  • urlunsplit方法必须是五个参数的可迭代对象

  • parse_qs解析出的字典的值是一个列表

  • quote方法和unquote方法对字符串和URL编码处理

  • robotparser对象处理前需要用read方法

存疑

如果URL没有协议的时候用scheme指定协议,则解析后的netloc会被放在path内,是个很奇怪的问题,由于没有实战,并不知道其作用。

print(urllib.parse.urlparse('https://docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse'))
ParseResult(scheme='https', netloc='docs.python.org', path='/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')
print(urllib.parse.urlparse('docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse',scheme='https'))
ParseResult(scheme='https', netloc='', path='docs.python.org/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')
;