Python————requests库的导入和第一个网络爬虫

今天还是有请到我们的老朋友《从零开始学习网络爬虫》,相信愿意学习Python爬虫的小伙伴们都已经安装好了Python的社区版（当然Python专业版也行），基于本书前面第一、二章就不过多赘述。小编的讲解从第三章开始

#Python第三方库——Requests库

#引入Requests库的方法，如下

首先打开python里面的终端，在python的左下角，点击一下

或者快捷键alt+F12

然后在终端里面输入pip install requests

等待python自行下载

然后我们的准备工作完成了

#爬虫的原理

(1)模拟计算机对服务器发起Requests请求

(2)接受服务器端的Requests内容并解析、提取所需信息

#实现第一个网络爬虫

本次发布时间为2023.10.22（因为网站这个东西具有时效性）

import requests
#首先导入我们刚刚下载的requests请求模块


headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.125 Safari/537.36'
}

#headers表示请求头,一般我们要伪装起来，不要让网站机器人发现我们是爬虫
#'User-Agent','Cookie','Host'一般为常见的请求头,
#有些时候会出现秘钥,具体要看网站里面的来确定（秘钥比较少）

response=requests.get('https://www.xiaozhu.com/',headers=headers)

#表示从该网页发送请求，获得响应体对象

#response我们称作响应体对象
#requests.get(url,headers,data,params,proxies)一般可以放置这几个参数
#url是网站地址,headers是请求头，data表示请求参数，params表示查询参数


print(response.text)
#一定要打印.text才会出现html或者是json文件
#print(response)---->打印的是响应体对象<Response [200]>
#这个200表示状态码，表示成功获得请求

这是我们获得的数据是html相关的代码

https://www.xiaozhu.com/小猪名宿网址

通过在该网页打开开发者工具——键盘F12

查看到第一个包www.xiaozhu.com，点击response查看到数据是和我们代码请求到数据是一样的

我们代码用的get方法:发现网页也是get方法，后续案例会有post方法，之后再讲那么我们为什么headers这样写呢？请看下面

切记切记，一定要查看Request Headers请求头,而不是Response Headers响应头

我们的构建就是根据这个来创建的，创建时我们一般直接复制下来.

关于开发者工具F12大家可以去CSDN其他博主那里看下如何操作@@@@@

Python————requests库的导入和第一个网络爬虫

悦读