一、web基础
1. DNS与域名:
1.1域名:
(1)为什么使用域名:IP地址不易记忆。
(2)早期解析域名:用hosts文件解析
弊端:主机名重复,主机维护困难
(3)DNS:分布式、层次性
- 分布式:将内容进行多次解析
- 层次性:层层递进
1.2 域名注册:
(1)定义:用于解决地址对应问题的一种方法。
(2)原则:先申请先注册。
(3)步骤:准备申请材料–>寻找域名注册网站–>查询域名–>正式申请–>成功注册
- 扩展:
1.阿里云域名怎么申请:
申请–>查询重名–>给钱(20-60块)–>备案(阿里云)–>拍照(负责人拍照人)–>10-20天申请之后就可以解析和用,但是如果有问题,会被封
1.3 DNS 解析:
DNS三种解析方式:
- 递归解析:递归解析是指 DNS 客户端在查询 DNS 服务器时,由客户端向 DNS 服务器发出一个完整的查询请求(例如查询域名 A 的 IP 地址),服务器会负责向其他 DNS 服务器转发请求,直到查找到相关答案,才由顶级 DNS 服务器将答案返回给客户端。
- 迭代解析:迭代解析是指 DNS 客户端在查询 DNS 服务器时,由客户端向特定 DNS 服务器发出查询请求,如果该 DNS 服务器没有所请求的域名缓存记录,它将会以域名服务器的方式向其他 DNS 服务器发起查询请求,直到找到相关答案,然后该服务器将答案返回给客户端。
- 反向解析:反向解析是 DNS 服务器根据某个 IP 地址查询所对应的主机名或域名。反向解析是对 IP 地址的解析。反向解析的查询方式与递归查询、迭代查询是类似的,只是查询的对象不同。
1.4 域名:
1.定义: 标识一组主机并提供它们的有关信息的树形结构(主要确定了根在哪,就可以确定每个分支)
域名服务器(分布式,每台主机维护一个部分):
① 保持和维护域名空间的程序
② 响应解析器的请求
解析端(客户端)
向DNS服务器发出请求的设备
2.域名空间结构:
① 根域:
位于域名空间最顶层,一般用一个 “.” 表示基础单位,除了根域 其他都只有一个上级域,有0或多个子域,同层域不可重复的子域或域名
② 顶级域:
一般代表一种类型的组织机构或国家地区(主要有此两种类型构成),如 net(网络公司)、com(商业)、org(民间团体组织)、edu(教育)、gov(政府)、mil(军事)、cn(中国)、jp(日本)、hk(中国香港)
③ 二级域:
用来标明顶级域内的一个特定的组织,国家顶级域下面的二级域名由国家网络部门统一管理,如 .cn 顶级域名下面设置的二级域名:.com.cn、.net.cn、.edu.cn …
④ 子域:
指一个域名下面的一个二级域名,例如,在 example.com 这个一级域名下,blog.example.com 就是一个子域。通常情况下,子域可以用于针对特定部门、服务或应用程序的单独部署,以便于管理和维护,也可以用于将特定流量引导到不同的服务器或处理节点上。
主机:
主机位于域名空间最下层,就是一台具体的计算机,如 www、mail、都是具体的计算机名字,可用www.sina.com.cn.、mail.sina.com.cn. 来表示,这种表示方式称为 FQDN (完全合格域名),也是这台主机在域名中的全名
二、 网页的概念
1.网页(HTTP/HTTPS)
2.1网页基本概念:
① 网页:
纯文本格式文件
编写语言为HTML
在用户的浏览器中被“翻译”成网页形式显示出来
② 网站:
由一个一个页面构成的,是多个网页的结合体
主页
打开网站后出现的第一个网页称为网站主页(或首页)
③ 域名:
浏览网页时输入的网址
④ HTTP/HTTPS:
用来传输网页的通信协议(是否加密),是一种通讯/交互的标准/规范
⑤ URL:
是一种万维网寻址系统
⑥ HTML :
用来编写网页的超文本标记语言
⑦ 超链接:
超链接是将网站中不同网页链接起来的功能
⑧ 发布:
将制作好的网页上传到服务器供用户访问的过程
2.2 HTML 概述:
2.2.1 HTML超文本标记语言
Hyper Text Markup Language
网页的“源码”
浏览器:“解释和执行”HTML源码的工具
2.2.2 HTML文档的结构:
示例:
<html>
<head>
<title>我的第一个网页 </title>
</head>
<body >
Hello World!
</body>
</html>
- 头标签中常用标签
标签 描述
<title> 定义了文档的标题
<base> 定义了页面链接标签的默认链接地址
<link> 定义了一个文档和外部资源之间的关系
<meta> 定义了 HTML 文档中的元数据
<script> 定义了客户端的脚本文件
<style> 定义了 HTML 文档的样式文件
- 内容标签中常用标签
标签 描述
<table> 定义一个表格
<tr> 定义了表格中的一行
<td> 定义了表格中某一行的一列
<img> 定义了一个图像
<a> 定义了一个超链接
<p> 定义了一行
<br> 定义了换行
<font> 定义了字体
2.2.3 网页基本标签2-1:
(1) 网页摘要信息的作用:
- 有利于浏览器解析
- 有利于搜索引擎搜索
<title>标签 #标题
<meta>标签 #元标志
2.2.4 标题标签类型
行控制相关标签
范围标签
图像标签
超链接标签
特殊符号
3. Web:
3.1 Web概述:
Web(World Wide Web,万维网)是一个由多种技术组合而成的网络资源信息系统。它是通过互联网连接在一起的文档集合,这些文档可以包括网页、图像、视频、音乐、应用程序等各种形式的内容。万维网可以看作是一个超级大的文档库,也是全球最大的信息库之一。
Web的核心技术是HTTP协议和HTML语言,HTTP协议是传输Web数据的协议,HTML语言是一种文本标记语言,用于创建Web页面。随着Web的发展和应用,各种相关技术的发展也逐渐成为Web的关键技术支撑。
Web的发展经历了几个阶段:
- Web 1.0:主要表现为单向信息流动,用户只能从Web上获得信息,不能发表或交流自己的信息。
- Web 2.0:强调网络的社会性,表现为信息的双向流动,用户可以互相交流,创造和分享信息。
- Web 3.0:是指下一代Web,目标是以人的语言作为数据描述语言,让机器更好地了解人类的需求和意图,挖掘数据间的关系和价值。
3.2 Web1.0 vs Web2.0
Web1.0:
以编辑为特征,网站提供给用户的内容是编辑处理后的,然后用户阅读网站提供的内容
这个过程是网站到用户的单向行为
Web2.0:
更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容的制造者
加强了网站与用户之间的互动,网站内容基于用户提供,网站的诸多功能也由用户参与建设,实现了网站与用户双向的交流与参与
Web2.0特征:
用户分享、以兴趣为聚合点的社群、开放的平台,活跃的用户
3.3 静态页面与动态页面
(1) 静态页面定义:
① 静态网页是标准的HTML文件
② 扩展名是.htm、.html
例如文本、图像、声音、Flash动画、客户端脚本和ActiveX控件及Java小程序等
③ 是网站建设的基础,早期网站一般都由静态网页制作
④ 没有后台数据库、不含程序和不可交互的网页
⑤ 相对更新起来比较麻烦,适用于一般更新较少的展示型网站
(2)静态页面特点:
① 每个静态网页都有一个固定的URL,且URL以.htm、.html、.shtml等常见形式为后缀,而不含有“?”
② 网页内容一经发布到网站服务器上,无论是否有用户访问,每个静态网页都是保存在网站服务器上的
③ 静态网页的内容相对稳定,容易被搜索引擎检索
④静态网页没有数据库的支持,在网站制作和维护方面工作量较大,因此当网站信息量很大时完全依靠静态网页制作方式比较困难
⑤ 静态网页的交互性较差,在功能方面有较大的限制
⑥ 页面浏览速度迅速,过程无需连接数据库,开启页面速度快于动态页面
(3) 动态页面:
① 网页 URL不固定,能通过后台与用户交互
② 在动态网页网址中有一个标志性的符号——“?”
③ 常用的语言有PHP、JSP、Python、Ruby等
(4) 动态页面特点:
① 交互性:
网页会根据用户的要求和选择而动态改变和响应,将浏览器作为客户端界面,这将是今后WEB发展的大势所趋
② 自动更新:
无须手动地更新HTML文档,便会自动生成新的页面,可以大大节省工作量
③ 因时因人而变:
当不同的时间,不同的人访问同一网址时会产生不同的页面
4. HTTP协议概述
4.1、HTTP协议简介
HTTP(超文本传输协议HyperText Transfer Protocol)协议是互联网上应用最为广泛的一种网络协议,它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
HTTP/HTTPS是应用层上的协议,建立在传输层TCP之上,客户端通过与服务端进行TCP连接(三次握手),之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。
HTTP 是一种无状态 (stateless) 协议, HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理(存储,保存)。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务, 提高效率。
4.2 cookie和session扩展
然而,在许多应用场景中,我们需要保持用户登录的状态或记录用户购物车中的商品。由于HTTP是无状态协议,所以必须引入一些技术来记录管理状态,例如Cookie。
cookie和session都为了实现的是http的短期的持久化(内存/缓存方式,查询快、效率比较高)cookie
是缓存在用户端(client)浏览器中的(默认缓存一天),当下次客户端通过同一个浏览器访问客户端的时候,会优先读取cookie中的缓存信息,向服务端进行请求,同时服务端收到客户端请求的时候,读取到cookie文件,知道客户端之前找的是服务器A处理的任务,为了省事儿,省资源,干脆直接讲请求直接再交给服务器A处理
两者对比:
cookie 省服务器性能
session 更安全
- 为后面服务、集群、功能优化做铺垫
- 具体解释了怎么解决HTTP无状态协议的持久化/存储。
4.3 HTTP协议的版本:
- HTTP 1.0:
1996年5月,支持cache, MIME, method
每个TCP连接只能发送一个请求,发送数据完毕,连接就关闭,如果还要请求其他资源,就必须再新建 一个连接引入了POST命令和HEAD命令头信息是 ASCII 码,后面数据可为任何格式。服务器回应时会告诉客户端,数据是什么格式,即Content-Type字段的作用。这些数据类型总称为MIME 多用途互联网邮件扩展,每个值包括一级类型和二级类型,预定义的类型,也可自定义类型, 常见Content-Type值: text/xml image/jpeg audio/mp3
- HTTP 1.1
1997年1月,引入了持久连接(persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。对于同一个域名,大多数浏览器允许同时建立6个持久连接引入了管道机制,即在同一个TCP连接里,客户端可以同时发送多个请求,进一步改进了HTTP协议的效率
新增方法:PUT、PATCH、OPTIONS、DELETE
同一个TCP连接里,所有的数据通信是按次序进行的。服务器只能顺序处理回应,前面的回应慢,会有 许多请求排队,造成"队头堵塞"(Head-of-line blocking)
为避免上述问题,两种方法:一是减少请求数,二是同时多开持久连接。
网页优化技巧,如合并脚本和样式表、将图片嵌入CSS代码、域名分片(domain sharding)等
HTTP 协议不带有状态,每次请求都必须附上所有信息。请求的很多字段都是重复的,浪费带宽,影响速度
- 扩展
HTTP1.0和HTTP1.l之间的区别
① 缓存处理
在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则引入了更多的缓存控制策略例如Entitytag,If-Unmodified-Since,If-Match,If-None-Match等更多可供选择的缓存头来控制缓存策略。
② 带宽优化及网络连接的使用
HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206 (Partial
Content) ,这样就方便了开发者自由的选择以便于充分利用带宽和连接
③ 错误通知的管理
在HTTP1.1中新增了24个错误状态响应码,如409 (Conflict)表示请求的资源与资源的当前状态发生冲突;410(Gone)表示服务器上的某个资源被永久性的删除
④ Host头处理
在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的RZ并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed web
Servers),并且它们共享一个Ie地址。HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有inost头域会报告一个错误(400 Bad Request )
⑤ 长连接
HTTP1.1支持长连接〈PersistentConnection)和请求的流水线(Pipelining)处理,在一个TCP连接上可以传送多个HTT请求和响应,减少了建立和关闭连接的消耗和延迟,在HTTP1.1中默认开启connection:keep-alive,一定程度上弥补了HTTP1.0每次请求都要创建连接的缺点
4.4 HTTP 请求格式( GET / POST 方式 )
4.4.1 GET 方式
① 请求行
请求的方式
请求的资源路径
请求的版本协议号
② 请求头(描述信息/标准化信息)
-
Accept:客户端可以接受的数据类型
-
Accept-Language:客户端可以接受的语言类型
-
User-Agent:浏览器的信息
-
Accpect-Encoding:客户端可以接受的编码格式
-
Host:表示请求的ip和端口号
-
Connection:告诉服务器请求连接如何处理
-
Keep-Alive:通知服务器回传数据不要马上关闭,保持一小段的连接
-
Closed:马上关闭
4.4.2 POST 请求方式
① 请求行
请求的方式
请求的资源路径
请求的协议的版本号
② 请求头
Accept:客户端可以接受的数据类型
Accept-Language:客户端可以接受的语言类型
Referer:表示请求发起时,浏览器地址栏中的地址
User-Agent:浏览器的信息
Content-Type:发送的数据类型
Content-Length:发送的数据长度
③ 请求体:就是发送给服务器的数据
4.4.3 GET 与POST 区别
① 区别一:语义上的区别
Get向服务器请求数据,依照HTTP协议,get 是用来请求数据。
Post向服务器发数据,依照HTTP协议,Post的语义是向服务器添加数据,也就是说按照Post的语义,该操作是会修改服务器上的数据
② 区别二:服务器请求的区别
Get请求是可以被缓存,示例:
访问百度,访问的方式就是GET,此时访问后的内容会缓被存在浏览器中,短时间再次访问,其实是拿到的浏览器中的缓存内容
另外Get请求只能接收ASCII码的回复
Post请求是不可以被缓存的。对于Post方式提交表单,刷新页面浏览器会弹出提示框“是否重新提交表单”,
Post可以接收二进制等各种数据形式,所以如果要上传文件一般用Post请求
③ 区别三:参数放请求头和请求体的差别
Get请求通常没有请求体(当然这也是可以由程序猿心情改变的),在TCP传输中只需传输一次(而不是一个包),
所以Get请求效率相对高。
Post请求将数据放在请求体中,而实际传输中,会先传输完请求头,再传输请求体,是分为两次传输的(而不是两个包)。
Post请求头会比Get更小(一般不带参数),请求头更容易在一个TCP包中完成传输,更何况请求头中有Content-Length的标识,可以更好地保证Http包的完整性。
-
GET方法:
从指定的服务器上获得数据
GET请求能被缓存
GET请求会保存在浏览器的浏览纪录里(cookit)
GET请求有长度的限制
主要用于获取数据
查询的字符串会显示在URL中,不安全 -
POST方法:
提交数据给指定服务器处理
POST请求不能被缓存
POST请求不会保存在浏览器的浏览纪录里
POST请求没有长度限制
查询的字符串不会显示在URL中,比较安全
4.4.4 HTTP状态码
当使用浏览器访问某一个URL,会根据处理情况返回相应的处理状态
通常正常的状态码为2xx,3xx(如200)
如果出现异常会返回4xx,5xx(如404)
状态码首位 | 已定义范围 | 分类 |
---|---|---|
1xx | 100-101 | 信息提示 |
2xx | 200-206 | 成功 |
3xx | 300-305 | 重定向 |
4xx | 400-415 | 客户端错误 |
5xx | 500-505 | 服务器错误 |
生产环境常见的HTTP状态码:
消息 | 描述 | 作用 |
---|---|---|
200 | OK | 请求成功(其后是对GET和POST请求的应答文档) |
301 | Moved Permanently | 请求的永久页面跳转 |
403 | Forbidden | 禁止访问该页面 |
404 | Not Found | 服务器无法找到被请求的页面 |
500 | Internal Server Error | 内部服务器错误 |
502 | Bad Gateway | 无效网关 |
503 | Service Unavailable | 当前服务不可用 |
504 | Gateway Timeout | 网关请求超时 |
三、总结:
1.Web是一个由多种技术组成的网络资源信息系统,它是通过互联网连接在一起的文档集合,包括网页、图像、视频、音乐、应用程序等。Web的核心技术是HTTP协议和HTML语言,HTTP协议是传输Web数据的协议,HTML是一种标记语言,用于创建Web页面。
2.HTTP(Hypertext Transfer Protocol,超文本传输协议)是应用层协议,是Web服务器和Web浏览器之间进行通信的协议。HTTP协议定义了浏览器请求和服务器响应的格式和规则。
3.Web应用和开发中,HTTP协议起到了至关重要的作用。Web开发人员需要了解HTTP协议的特点和规则,以便正确地使用它来构建Web应用程序。同时,了解HTTP协议还有助于Web应用程序的调优和性能优化。