Bootstrap

python爬虫----使用httpx

使用httpx

1、背景

使用urllib和requests库已经可以爬取绝大部分网站的数据,但对于某些网站任然无能为力,因为这些网站强制使用HTTP/2.0协议访问,这时使用urllib和requests是无法爬取数据的,因为这两个库只支持HTTP/1.1,这个时候就需要用到httpx库了

2、基本使用

1、安装

# 这样安装不支持HTTP/2.0 
pip install httpx
# 安装httpx并支持HTTP/2.0
pip install 'httpx[http2]'

2、基本使用

# 导入模块
import httpx
# 发送get请求
r = httpx.get('https://www.httpbin.org/get/')
# 输出响应状态码
print(r.status_code)
# 输出请求头
print(r.headers)
# 输出响应体
print(r.text)

# 说明:httpx默认不会开启对HTTP/2.0的支持,默认使用HTTP/1.1,需要手动声明一次才能使用
import httpx
client = httpx.Client(http2=True)
r = client.get('https://scrape.center/')
print(r.text)

# httpx库与requests库的很多方式类似

3、Client 对象

1、使用

# 官方推荐使用with as 语句
# 案例1
import httpx
with httpx.Client() as client:
    r = client.get('https://www.httpbin.org/get')
    print(r)

# 案例2:与案例1等价
import httpx
client = httpx.Client()
try:
    r = client.get('https://www.htpbin.org/get')
finally:
    client.close()

2、指定参数

import httpx
url = "http://www.httpbin.org/headers"
headers = {"User-Agent":"my-app/1.0.0.1"}
with httpx.Client(headers=headers) as client:
    r = client.get(url)
    print(r.json()['headers']['User-Agent'])
    print(r.http_version)

3、支持异步请求
httpx支持异步客户端请求(AsyncClient),支持Python的async请求模式

import httpx
import asyncio
async def fetch(url):
    async with httpx.AsyncClientt(http2=True) as client:
        r = await client.get(url)
        print(r.text)
if __name__ == "__main__":
    asyncio.get_event_loop().run_until_complete(fetch('https://www.httpbin.org/get'))

3、基本爬虫案例实战

1、准备工作

1、安装Python环境
2、了解Python多进程的基本原理
3、了解Python HTTP请求库requests的基本用法
4、了解正则表达式的用法和Python中正则表达式库re的基本用法

2、爬取目标

爬取基本静态网站:电影网站
目标网址:https://movie.douban.com/top250

需完成目标:
1)利用requests爬取这个站点每一页的电影列表,顺着列表再爬取每个电影的详情页
2)用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、剧情简介等内容
3)把爬取的内容保存为JSON文本文件
4)使用多进程实现爬取加速

1、分析列表页
观察列表页结构和翻页规则
分析网页结构
确认爬取目标

2、实现列表页爬取
遍历所有页码,构造10页的索引页URL
从每个索引页分析提取出每个电影的详情页URL

requests请求

# 用来请求网页
import requests
# 用来输出信息
import logging
# 用来实现正则表达式解析
import re
# 用来做URL拼接
from urllib.parse import urljoin

# 定义日志输出级别和输出格式
logging.basicConfig(level=logging.INFO,
                    format="%(asctime)s - %(levelname)s: %(message)s")
BASE_URL = 'https://movie.douban.com/top250'

# 页码总数量
TOTAL_PAGE = 10

# 定义页面爬取方法
def scrape_page(url):
    logging.info('scraping %s...', url)
    try:
        r = requests.get(url)
        # 判断状态码是否为200,如果是,直接返回页面的HTML代码;如果不是,则输出错误日志信息
        if r.status_code == 200:
            return r.text
        logging.error('get invalid status code %s while scraping %s',
                      r.status_code, url)
    except requests.RequestException:
        # 如果出现爬取异常,输出对应的错误日志信息
        logging.error('error occurred while scraping %s', url,
                      exc_info=True)

# 定义列表爬取方法:这个方法会接收一个page参数,即列表页的页码,在方法里面实现列表页的URL拼接,然后调用scrape_page方法爬取即可
def scrape_index(page):
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(index_url)

# 解析列表页方法
def parse_index(html):
    pattern = re.compile('<a.*?href="(.*?)".*?class="name">')
    items = re.findall(pattern, html)
    if not items:
        return []
    for item in items:
        # 拼接完整URL
        detail_url = urljoin(BASE_URL, item)
        logging.info('get detail url %s', detail_url)
        yield detail_url

# 主函数
def main():
    for page in range(1, TOTAL_PAGE+1):
        index_html = scrape_index(page)
        detail_urls = parse_index(index_html)
        logging.info('detail urls %s', list(detail_urls))

# 函数开始位置
if __name__ == "__main__":
    main()

httx请求

# 用来请求网页
import httpx
# 用来输出信息
import logging
# 用来实现正则表达式解析
import re
# 用来做URL拼接
from urllib.parse import urljoin

# 定义日志输出级别和输出格式
logging.basicConfig(level=logging.INFO,
                    format="%(asctime)s - %(levelname)s: %(message)s")
BASE_URL = 'https://movie.douban.com/top250'

# 页码总数量
TOTAL_PAGE = 10

# 定义页面爬取方法
def scrape_page(url):
    logging.info('scraping %s...', url)
    try:
        r = httpx.get(url)
        # 判断状态码是否为200,如果是,直接返回页面的HTML代码;如果不是,则输出错误日志信息
        if r.status_code == 200:
            return r.text
        logging.error('get invalid status code %s while scraping %s',
                      r.status_code, url)
    except httpx.RequestError:
        # 如果出现爬取异常,输出对应的错误日志信息
        logging.error('error occurred while scraping %s', url,
                      exc_info=True)

# 定义列表爬取方法:这个方法会接收一个page参数,即列表页的页码,在方法里面实现列表页的URL拼接,然后调用scrape_page方法爬取即可
def scrape_index(page):
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(index_url)

# 解析列表页方法
def parse_index(html):
    pattern = re.compile('<a.*?href="(.*?)".*?class="name">')
    items = re.findall(pattern, html)
    if not items:
        return []
    for item in items:
        # 拼接完整URL
        detail_url = urljoin(BASE_URL, item)
        logging.info('get detail url %s', detail_url)
        yield detail_url

# 主函数
def main():
    for page in range(1, TOTAL_PAGE+1):
        index_html = scrape_index(page)
        detail_urls = parse_index(index_html)
        logging.info('detail urls %s', list(detail_urls))

# 函数开始位置
if __name__ == "__main__":
    main()

;