一、MySQL8新特性概述
MySQL从5.7版本直接跳跃发布了8.0版本。MySQL 8版本在功能上做了显著的改进与增强,开发者对MySQL的源代码进行了重构,最突出的一点是多MySQL Optimizer优化器进行了改进。不仅在速度上得到了改善,还为用户带来了更好的性能和更棒的体验
(1)MySQL8.0新增特性
- 更简便的NoSQL支持:NoSQL泛指非关系型数据库和数据存储。随着互联网平台的规模飞速发展,传统的关系型数据库已经越来越不能满足需求。从5.6版本开始,MySQL就开始支持简单的NoSQL存储功能。MySQL 8对这一功能做了优化,以更灵活的方式实现NoSQL功能,不再依赖模式(schema)
- 更好的索引:在查询中,正确地使用索引可以提高查询的效率。MySQL8中新增了隐藏索引和降序索引。隐藏索引可以用来测试去掉索引对查询性能的影响。在查询中混合存在多列索引时,使用降序索引可以提高查询的性能
- 更完善的JSON支持:MySQL从5.7开始支持原生JSON数据的存储,MySQL 8对这一功能做了优化,增加了聚合函数JSON_ARRAYAGG()和JSON_OBJECTAGG(),将参数聚合为JSON数组或对象,新增了行内操作符->>,是列路径运算符->的增强,对JSON排序做了提升,并优化了JSON的更新操作
- 安全和账户管理
- InnoDB的变化:InnoDB时MySQL默认的存储引擎。在MySQL 8 版本中,InnoDB在自增、索引、加密、死锁、共享锁等方面做了大量的改进和优化,并且支持原子数据定义语言(DDL),提高了数据安全性,对事务提供更好的支持
- 数据字典:在之前的MySQL版本中,字典数据都存储在元数据文件和非事务表中。从MySQL 8开始新增了事务数据字典,在这个字典里存储着数据库对象信息,这些数据字典存储在内部事务表中
- 原子数据定义语句:
-
MySQL 8开始支持原子数据定义语句(Automic DDL),即原子DDL。目前,只有InnoDB存储引擎支持原子DDL。原子数据定义语句(DDL)将与DDL操作相关的数据字典更新、存储引擎操作、二进制日志写入结合到一个单独的原子事务中,这使得即使服务器崩溃,事务也会提交或回滚
-
使用支持原子操作的存储引擎所创建的表,在执行DROP TABLE、CREATE TABLE、ALTER TABLE、 RENAME TABLE、TRUNCATE TABLE、CREATE TABLESPACE、DROP TABLESPACE等操作时,都支持原子操作,即事务要么完全操作成功,要么失败后回滚,不再进行部分提交。
对于从MySQL 5.7复制到MySQL 8 版本中的语句,可以添加IF EXISTS或IF NOT EXISTS语句来避免发生错误
-
- 资源管理
- 字符集支持:MySQL 8中默认的字符集由latin1更改为utf8mb4,并首次增加了日语所特定使用的集合,utf8mb4_ja_0900_as_cs
- 优化器增强:MySQL优化器开始支持隐藏索引和降序索引。隐藏索引不会被优化器使用,验证索引的必要性时不需要删除索引,先将索引隐藏,如果优化器性能无影响就可以真正地删除索引。降序索引允许优化器对多个列进行排序,并且允许排序顺序不一致
- 公用表表达式
- 窗口函数
- 正则表达式支持
- 内部临时表:TempTable存储引擎取代MEMORY存储引擎成为内部临时表的默认存储引擎
- 日志记录:在MySQL 8中错误日志子系统由一系列MySQL组件构成。这些组件的构成由系统变量log_error_services来配置,能够实现日志事件的过滤和写入
- 备份锁:新的备份锁允许在线备份期间执行数据操作语句,同时阻止可能造成快照不一致的操作。新备份锁由 LOCK INSTANCE FOR BACKUP 和 UNLOCK INSTANCE 语法提供支持,执行这些操作需要备份管理员特权
- 增强的MySQL复制
(2)MySQL8.0移除的旧特性
- 查询缓存:查询缓存已被移除
- 加密相关:删除的加密相关的内容有:ENCODE()、DECODE()、ENCRYPT()、DES_ENCRYPT()和DES_DECRYPT()函数,配置项des-key-file,系统变量have_crypt,FLUSH语句的DES_KEY_FILE选项,HAVE_CRYPT CMake选项。
对于移除的ENCRYPT()函数,考虑使用SHA2()替代,对于其他移除的函数,使用AES_ENCRYPT()和AES_DECRYPT()替代
- 空间函数相关:在MySQL 5.7版本中,多个空间函数已被标记为过时。这些过时函数在MySQL 8中都已被移除,只保留了对应的ST_和MBR函数
- \N和NULL:在SQL语句中,解析器不再将\N视为NULL,所以在SQL语句中应使用NULL代替\N。这项变化不会影响使用LOAD DATA INFILE或者SELECT…INTO OUTFILE操作文件的导入和导出。在这类操作中,NULL仍等同于\N
- mysql_install_db:在MySQL分布中,已移除了mysql_install_db程序,数据字典初始化需要调用带着–initialize或者–initialize-insecure选项的mysqld来代替实现。另外,–bootstrap和INSTALL_SCRIPTDIR CMake也已被删除
- 通用分区处理程序:通用分区处理程序已从MySQL服务中被移除。为了实现给定表分区,表所使用的存储引擎需要自有的分区处理程序。提供本地分区支持的MySQL存储引擎有两个,即InnoDB和NDB,而在MySQL 8中只支持InnoDB
- 系统和状态变量信息:在INFORMATION_SCHEMA数据库中,对系统和状态变量信息不再进行维护。GLOBAL_VARIABLES、SESSION_VARIABLES、GLOBAL_STATUS、SESSION_STATUS表都已被删除。另外,系统变量show_compatibility_56也已被删除。被删除的状态变量有Slave_heartbeat_period、Slave_last_heartbeat,Slave_received_heartbeats、Slave_retried_transactions、Slave_running。以上被删除的内容都可使用性能模式中对应的内容进行替代
- mysql_plugin工具:mysql_plugin工具用来配置MySQL服务器插件,现已被删除,可使用–plugin-load或–plugin-load-add选项在服务器启动时加载插件或者在运行时使用INSTALL PLUGIN语句加载插件来替代该工具
二、新特性1:窗口函数
(1)使用窗口函数前后对比
- 假设我现在有这样一个数据表,它显示了某购物网站在每个城市每个区的销售额
CREATE TABLE sales( id INT PRIMARY KEY AUTO_INCREMENT, city VARCHAR(15), county VARCHAR(15), sales_value DECIMAL ); INSERT INTO sales(city,county,sales_value) VALUES ('北京','海淀',10.00), ('北京','朝阳',20.00), ('上海','黄埔',30.00), ('上海','长宁',10.00); SELECT * FROM sales;
- 现在计算这个网站在每个城市的销售总额、在全国的销售总额、每个区的销售额占所在城市销售额中的比率,以及占总销售额中的比率
- 使用窗口函数:
(2)窗口函数分类
- MySQL从8.0版本开始支持窗口函数。窗口函数的作用类似于在查询中对数据进行分组,不同的是,分组操作会把分组的结果聚合成一条记录,而窗口函数是将结果置于每一条数据记录中
- 窗口函数可以分为静态窗口函数和动态窗口函数
- 静态窗口函数的窗口大小是固定的,不会因为记录的不同而不同
- 动态窗口函数的窗口大小会随着记录的不同而变化
- MySQL官方网站窗口函数的网址为:MySQL :: MySQL 8.0 Reference Manual :: 14.20.1 Window Function Descriptions
- 窗口函数总体上可以分为序号函数、分布函数、前后函数、首尾函数和其它函数,如下表:
(3)语法结构
- 窗口函数的语法结构是:
函数 OVER([PARTITION BY 字段名 ORDER BY 字段名 ASC|DESC]) 或者 函数 OVER 窗口名 … WINDOW 窗口名 AS ([PARTITION BY 字段名 ORDER BY 字段名 ASC|DESC])
- OVER关键字指定窗口函数的范围:
- 如果省略后面括号中的内容,则窗口会包含满足WHERE条件的所有记录,窗口函数会基于所有满足WHERE条件的记录进行计算
- 如果OVER关键字后面的括号不为空,则可以使用如下语法设置窗口
- 窗口名:为窗口设置一个别名,用来标识窗口
- PARTITION BY子句:指定窗口函数按照哪些字段进行分组。分组后,窗口函数可以在每个分组中分别执行
- ORDER BY子句:指定窗口函数按照哪些字段进行排序。执行排序操作使窗口函数按照排序后的数据记录的顺序进行编号
- FRAME子句:为分区中的某个子集定义规则,可以用来作为滑动窗口使用
(4)分类讲解
准备工作:
CREATE TABLE goods(
id INT PRIMARY KEY AUTO_INCREMENT,
category_id INT,
category VARCHAR(15),
NAME VARCHAR(30),
price DECIMAL(10,2),
stock INT,
upper_time DATETIME
);
INSERT INTO goods(category_id,category,NAME,price,stock,upper_time)
VALUES
(1, '女装/女士精品', 'T恤', 39.90, 1000, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '连衣裙', 79.90, 2500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '卫衣', 89.90, 1500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '牛仔裤', 89.90, 3500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '百褶裙', 29.90, 500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '呢绒外套', 399.90, 1200, '2020-11-10 00:00:00'),
(2, '户外运动', '自行车', 399.90, 1000, '2020-11-10 00:00:00'),
(2, '户外运动', '山地自行车', 1399.90, 2500, '2020-11-10 00:00:00'),
(2, '户外运动', '登山杖', 59.90, 1500, '2020-11-10 00:00:00'),
(2, '户外运动', '骑行装备', 399.90, 3500, '2020-11-10 00:00:00'),
(2, '户外运动', '运动外套', 799.90, 500, '2020-11-10 00:00:00'),
(2, '户外运动', '滑板', 499.90, 1200, '2020-11-10 00:00:00');
2.4.1序号函数
- ROW_NUMBER()函数:查询 goods 数据表中每个商品分类下价格降序排列的各个商品信息
- ROW_NUMBER()函数:查询 goods 数据表中每个商品分类下价格最高的3种商品信息
- RANK()函数:使用RANK()函数获取 goods 数据表中各类别的价格从高到低排序的各商品信息
- RANK()函数:使用RANK()函数获取 goods 数据表中类别为“女装/女士精品”的价格最高的4款商品信息
- DENSE_RANK()函数:使用DENSE_RANK()函数获取 goods 数据表中各类别的价格从高到低排序的各商品信息
- DENSE_RANK()函数:使用DENSE_RANK()函数获取 goods 数据表中类别为“女装/女士精品”的价格最高的4款商品信息
(rank - 1) / (rows - 1) #其中,rank的值为使用RANK()函数产生的序号,rows的值为当前窗口的总记录数
2.4.2分布函数
- PERCENT_RANK()函数:计算 goods 数据表中名称为“女装/女士精品”的类别下的商品的PERCENT_RANK值
- PERCENT_RANK()函数是等级值百分比函数。按照如下方式进行计算:
(rank - 1) / (rows - 1) #其中,rank的值为使用RANK()函数产生的序号,rows的值为当前窗口的总记录数
- CUME_DIST()函数:查询goods数据表中小于或等于当前价格的比例
2.4.3前后函数
- LAG(expr,n)函数:查询goods数据表中前一个商品价格与当前商品价格的差值
- LEAD(expr,n)函数:查询goods数据表中后一个商品价格与当前商品价格的差值
2.4.4首尾函数
- FIRST_VALUE(expr)函数:按照价格排序,查询第1个商品的价格信息
- LAST_VALUE(expr)函数:按照价格排序,查询最后一个商品的价格信息
2.4.5其他函数
- NTH_VALUE(expr,n)函数:查询goods数据表中排名第2和第3的价格信息
- NTILE(n)函数:将goods表中的商品按照价格分为3组
(5)小结
- 窗口函数的特点是可以分组,而且可以在分组内排序。另外,窗口函数不会因为分组而减少原表中的行数,这对我们在原表数据的基础上进行统计和排序非常有用
三、新特性2:公用表表达式
公用表表达式(或通用表表达式)简称为CTE。CTE是一个命名的临时结果集,作用范围是当前语句。CTE可以理解成一个可以复用的子查询,当然跟子查询还是有点去别的,CTE可以引用其它CTE,但子查询不能引用其它子查询。所以,可以考虑用CTE代替子查询
依据语法结构和执行方式的不同,公用表表达式可以分为普通公用表表达式和递归公用表表达式2种
(1)普通公用表表达式
- 普通公用表表达式的语法结构是:
WITH CTE名称 AS (子查询) SELECT|DELETE|UPDATE 语句;
- 普通公用表表达式类似于子查询,不过,跟子查询不同的是,它可以被多次引用,而且可以被其他的普通公用表表达式所引用
- 举例:查询员工所在的部门的详细信息(用子查询实现)
SELECT * FROM departments WHERE department_id IN ( SELECT DISTINCT department_id FROM employees );
- 举例:查询员工所在的部门的详细信息(用普通公用表表达式实现)
WITH emp_dept_id AS (SELECT DISTINCT department_id FROM employees) SELECT * FROM departments d JOIN emp_dept_id e ON d.department_id = e.department_id;
(2)什么是递归公用表表达式?
- 递归公用表表达式也是一种公用表表达式。只不过,除了普通公用表表达式的特点以外,它还有自己的特点,就是可以自己调用自己,它的语法结构是:
WITH RECURSIVE CTE名称 AS (子查询) SELECT|DELETE|UPDATE 语句;
- 递归公用表表达式由2部分组成,分别是种子查询和递归查询,中间通过关键字 UNION [ALL]进行连接。这里的种子查询,意思就是获得递归的初始值。这个查询只会运行一次,以创建初始数据集,之后递归查询会一直执行,直到没有任何新的查询数据产生,递归返回
- 案例:针对于我们常用的employees表,包含employee_id,last_name和manager_id三个字段。如果a是b的管理者,那么,我们可以把b叫做a的下属,如果同时b又是c的管理者,那么c就是b的下属,是a的下下属
- 我们尝试用查询语句列出所有具有下下属身份的人员信息。如果用我们之前学过的知识来解决,会比较复杂,至少要进行 4 次查询才能搞定:
- 第一步,先找出初代管理者,就是不以任何别人为管理者的人,把结果存入临时表
- 第二步,找出所有以初代管理者为管理者的人,得到一个下属集,把结果存入临时表
- 第三步,找出所有以下属为管理者的人,得到一个下下属集,把结果存入临时表
- 第四步,找出所有以下下属为管理者的人,得到一个结果集
- 如果用递归公用表表达式,就非常简单了:
- 用递归公用表表达式中的种子查询,找出初代管理者。字段 n 表示代次,初始值为 1,表示是第一代管理者
- 用递归公用表表达式中的递归查询,查出以这个递归公用表表达式中的人为管理者的人,并且代次的值加 1。直到没有人以这个递归公用表表达式中的人为管理者了,递归返回
- 在最后的查询中,选出所有代次大于等于 3 的人,他们肯定是第三代及以上代次的下属了,也就是下下属了。这样就得到了我们需要的结果集
- 代码:
WITH RECURSIVE cte AS ( SELECT employee_id,last_name,manager_id,1 AS n FROM employees WHERE employee_id = 100 UNION ALL SELECT a.employee_id,a.last_name,a.manager_id,n+1 FROM employees AS a JOIN cte ON (a.manager_id = cte.employee_id) ) SELECT employee_id,last_name FROM cte WHERE n >= 3;
(3)小结
- 公用表表达式的作用是可以替代子查询,而且可以被多次引用。递归公用表表达式对查询有一个共同根节点的树形结构数据非常高效,可以轻松搞定其他查询方式难以处理的查询
四、课后练习
- 创建Students数据表,如下:
CREATE TABLE students( id INT PRIMARY KEY AUTO_INCREMENT, student VARCHAR(15), points TINYINT );
- 向表中添加数据如下:
INSERT INTO students(student,points) VALUES ('张三',89), ('李四',77), ('王五',88), ('赵六',90), ('孙七',90), ('周八',88);
- 分别使用RANK()、DENSE_RANK()和ROW_NUMBER()函数对学生成绩降序排列情况进行显示
SELECT RANK() over(ORDER BY points DESC) AS "排名",students.* FROM students; SELECT DENSE_RANK() over(ORDER BY points DESC) AS "排名",students.* FROM students; SELECT ROW_NUMBER() over(ORDER BY points DESC) AS "排名",students.* FROM students;