Bootstrap

详解:HTTP/HTTPS协议

HTTP协议

一.HTTP是什么

HTTP,全称超文本传输协议,是一种用于分布式、协作式、超媒体信息系统的应用层协议。HTTP往往是基于传输层TCP协议实现的,采用的一问一答的模式,即发一个请求,返回一个响应。

Q:什么是超文本?

A:文本就是HTML,css等,超文本更厉害,内容不仅有文本有的,还可以有图片视频音频等二级制数据。

Q:什么是应用层协议,什么是传输层协议?

TCP/IP协议是传输层协议,简单来说,这个协议只管传输,像是一个搬运工,不管对数据的加工和处理。而HTTP协议是应用层协议,其不关心内容是怎么传输的,只关心数据加工处理等操作。

二.HTTP协议格式

我们可以使用Fiddler等抓包工具来获取HTTP请求或响应的报文内容。

1.请求

下面是我们访问哔哩哔哩时的请求(太多展示不过来,删除了一部分,但不影响):

首行由三部分组成:方法+url+协议版本

header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。

Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;body可以是空的。

2.响应

我们对服务器发起请求,服务器会给我们响应,紧接着上面的访问哔哩哔哩的例子:

首行由三部分组成:版本号+状态码+状态码解释。

header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。

Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;如果服务器返回一个html页面,那么html页面内容就是在body中;body可以是空的。

三.HTTP请求

下面对上面请求报文内容中出现内容进行介绍。

1.url介绍

首先介绍一下url是什么。

url,全称统一资源定位符,也就是大家所谓的网址。下面是url的常见结构:

协议名:这个协议不一定的http协议,还可以是其他协议;可以省略,省略默认是http。

登录信息:一般省略,现在网站进行身份认证一般不通过url进行。

服务器地址:服务器的ip地址或域名,两者可以通过DNS域名解析系统完成相互转换。

端口号:区分应用程序,可以省略。

带层次的文件路径:用于访问某个主机上某个程序管理的某些资源,可以省略。

查询字符串:对访问资源的补充说明,使用键值对结构,键值对之间使用&分隔.键和值之间使用=分隔;可以省略,省略后相当于/. 。

片段标识符:主要用于页面内跳转,可以省略。

从上面我们可以看到一些特殊字符在url中已经被使用了,如果我们还想使用这些字符的话就要进行转义了。

转义的规则如下:将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式。

2.方法(method)

方法告诉服务器我们这次请求想要干什么。

方法说明支持的HTTP协议版本
GET获取资源1.0、1.1
POST传输实体主体1.0、1.1
PUT传输文件1.0、1.1
HEAD获取报文首部1.0、1.1
DELETE删除服务器指定资源1.0、1.1
OPTIONS返回服务器所⽀持的请求⽅法1.0
TRACE回显服务器端收到的请求1.0
CONNECT要求用隧道协议连接代理1.0
LINK建立和资源之间的联系1.0
UNLINK断开连接关系1.0

1)GET方法

使用的最多。首行的第一部分为GET;URL的查询字符串(query string)可以为空;body部分为空,如果需要GET给服务器发送一些数据,通过查询字符串传递过去。

2)POST方法

使用的比较少。首行的第一部分为POST;URL的查询字符串一般为空;body一般不为空。典型应用场景:登录和上传。

补充:GET和POST的区别:

两者没有本质区别,经常能够混用。从两个单词的语义可以得到GET的获取数据,而POST是提交数据;GET的body一般为空,需要传递的数据通过query string传递,POST的query string一般为空,需要传递的数据通过body传递;GET请求一般是幂等的,POST请求一般是不幂等的(如果多次请求得到的结果⼀样,就视为请求是幂等的);GET可以被缓存,POST不能被缓存。

3.报头(header)

header中使用了键值对结构,下面是报头种类:

1)Host:表示服务器主机的地址和端口;

2)Content-Length:表示body中的数据长度;

3)Content-Type:表示请求的body中的数据格式;

4)User-Agent:表示浏览器/操作系统的属性;

5)Referer:表示这个页面是从哪个页面跳转过来的;

6)Cookie:

Cookie是浏览器运行网页在本地硬盘存储数据的一种机制,这个数据可能是客户端(网页)自行通过JS写入的,也可能来自于服务器(服务器在HTTP响应的header中通过Set-Cookie字段给浏览器返回数据)(反正是程序员自行定义的),Cookie是按照键值对的方式来存储数据的,Cookie是按照域名维度来组织的。

每个不同的域名下都可以有不同的Cookie,不同网站之间的Cookie并不冲突。

浏览器保存了Cookie后,在后续给服务器发送请求的时候就会把这些Cookie键值对放到请求的header中传给服务器。一个典型的应用场景是登录认证,为什么不用每次来CSDN都要重新输入一遍账号密码,答案就在这。

四.状态码

用来表示访问一个页面的结果。下面是一些常见的状态码:

状态码状态码解释介绍
200OK表示访问成功
404Not Found没有找到资源
403Forbidden访问被拒绝,比如一些需要权限的页面
405Method Not Allowed不支持所有方法
500Internal Server Error服务器出现内部错误
504Gateway Timeout请求超时
302Move temporarily临时重定向
301Moved Permanently永久重定向

总结:

类别原因
1XXinformational(信息性状态码)接收的请求正在处理
2XXSuccess(成功状态码)请求正常处理完毕
3XXRedirection(重定向状态码)需要进行附加操作以完成请求
4XXClient Error(客户端错误状态码)服务器无法处理请求
5XXServer Error(服务器错误状态码)服务器处理请求出错

HTTPS

一.HTTPS是什么

HTTPS是HTTP+SSL/TLS,本质也是应用层协议,只不过是在HTTP上加一个加密层。如果我们单使用HTTP协议进行通讯,黑客运营商等可以通过控制设备来获取我们的传输的数据,这是有很大的安全隐患的。因此我们引入了加密层来保证我们传数据是安全的。

二.HTTPS的工作过程

1.对称加密

对称加密就是通过同一个“密钥”,能把明文转化成密文,也能把密文转成明文。如果我们使用对称加密,那么我们双方都要知道密钥是什么。由于一个服务器要为很多个客户端提供服务,大家每个人都使用一个单独的密钥不太可能,那我们就需要在传输的时候把密钥也传过去。

但这又引出了一个新的问题,传输的时候传密钥,不就是把保险柜密码贴在保险柜上嘛,没用。因此我们要传密钥的话要对密钥进行加密。但问题又来了,给密钥加密了,那么密钥要谁解密呢?如果在传一个密钥,那不就成套娃了嘛,无穷无尽,密钥套密钥,最终总会有一个密钥没有被加密。

所以说我们要引入非对称加密。

2.非对称加密

非对称加密要用到两个密钥,一个公钥,一个私钥。公钥可以对明文加密,私钥可以对密文解密,反过来也是可以的,私钥可以对明文加密,公钥可以对密文解密。但这个方法有一个缺点就是效率太低了。

对此我们使用了对称加密和非对称加密的结合版。使用 非对称加密 去加密 对称加密 的密钥。

你以为这个就安全了吗?这里就要介绍一下中间人攻击力了。先给大家举一个生活中的例子。我们知道车钥匙通过向车发送电波可以控制车门的开关。我们怎么实现没有车钥匙也能打开车。

当车主人按下开门的按钮时,我们可以通过电波仪器收集车钥匙发送的电波,这时车主人可能以为刚刚没按上,一般会再按一次。这时,我们收集这次的开门电波,并将上次的开门电波发给车。这样我们就可以一直持有一个有效开门电波,可以把车主的车给开走了(bushi)。这就属于中间人攻击。

在非对称加密中,黑客可以劫持网络设备,当客户端通过网络设备向服务器获取公钥的时候,黑客可以截取这条信息,并自己生成一对公钥和私钥,将自己生成的公钥发回客户端。同时网络设备给服务器发请求获取公钥,服务器返回后将这个真公钥保存好。

客户端会将数据通过我们给它的假公钥加密,到了网络设备后,黑客可以通过自己生成的假密钥进行解密,这样就知道了客户端发送的数据是什么。我们再通过刚刚获得的真公钥加密数据与服务器通讯。服务器就会误以为黑客是客户端,将数据发给了网络设备,这样信息就泄露了。

那么没有办法了吗?其实不然,我们引入证书

证书是由第三方认证机构给服务器颁发的。在服务器搭建的时候,将服务器的域名、公钥等信息发给第三方认证机构生成数字证书,证书上记录了第三方认证机构和服务器的信息(域名、公钥)和数字签名(本质是校验和)。

数字签名是怎么产生的?认证机构会生成一对公钥(pub2)和私钥(pri2),使用证书中的关键信息生成校验和,再使用私钥(pri2)对这个校验和进行加密。

客户端获得证书后进行下面两次处理:

1)使用同样是算法对证书中的字段进行处理,获得校验和1;

2)通过认证机构提供的公钥(pub2)对数字签名进行解密,得到校验和2;

对比校验和1和校验和2是否相等,如果相等,说明证书没有被修改过;如果不相等,说明证书被人修改了。

Q:我们怎么保证我们用的公钥不是黑客生成的?

A:认证机构的公钥不是通过网络传输的,而是操作系统内置的。

Q:如果黑客修改了证书上的公钥呢?

A:如果修改了,那么校验和1就会变,与校验和2匹配不上。

Q:如果黑客自己伪造一个证书呢?

A:服务器在申请证书的时候会提交域名,域名会不同。

;