1.事务概述
什么是事务?
事务时是访问和更新数据的程序执行单元,事务中可能含有一个或多个SQL语句,这些语句要么全部执行,要么都不执行
回顾MySQL的逻辑架构与存储引擎
如上图所示,MySQL服务器的逻辑架构从上到下分为三层:
- 第一层:处理客户端连接、授权认证等
- 第二层:服务器层,负责查询语句的解析、优化、缓存以及内置函数的实现、存储过程等。
- 第三层:存储引擎,负责MySQL中数据的存储与提取。MySQL中服务器层不管理事务,事务是由存储引擎实现的,MySQL支持事务的存储引擎有InnoDB,NDB Cluster等,
使用最多的就是InnoDB,也是MySQL默认使用的存储引擎
,其他引擎不支持事务,比如MyISAM,Memory等。
事务的四个特性
ACID是衡量事务
的四个标准:
- 原子性(Atomicity)
- 一致性(Consistency)
- 隔离性(Isolation)
- 持久性(Durability)
按照严格的标准,只有同时满足ACID特性
才是事务.
2.A原子性实现原理
原子性定义
原子性指一个事务是一个不可分割的整体,内部所有的操作要么都做,要么都不做,如果事务中的一条SQL执行失败,那么已经执行的语句也必须回滚
.所以说,实现原子性的核心就在于如何实现回滚。
MySQL的日志
在说明原子性原理之前,首先介绍一下MySQL的事务日志,MySQL的日志有很多种,比如二进制日志(binlog)、错误日志、查询日志、慢查询日志,此外InnoDB存储引擎还提供了两种事务日志,redo log(重做日志)
和 undo log(回滚日志)
, 其中redo log用于保证事务的持久性,而undo log则是事务原子性和隔离性实现的基础。
原子性实现关键:undo log
- 实现原子性的关键,是当事务回滚时能够撤销所有已经执行成功的SQL语句,InnoDB实现回滚,靠的是undo log,
当事务对数据库进行修改时,InnoDB会生成对应的;如果事务执行失败或者调用了rollback,导致事务需要回滚,就利用undo log中的信息将数据回滚到修改之前的样子
undo log
属于逻辑日志,它记录的是SQL执行相关的信息,当发生回滚时,InndDB会根据undo log的内容做与之前相反的工作,对于每个insert,回滚时会执行delete,对于每个update,回滚时会执行一个相反的update,将数据改回去。- 以update操作为例,当事务执行update时,其生成的undo log中会包含
被修改行的主键(一遍知道修改了哪些行),修改了哪些列、这些列在修改前后的值的信息
,回滚时便可以使用这些信息将数据还原到update之前的状态。
3.D持久性实现原理
持久性定义
持久性指事务一旦提交,它对数据库的改变就应该是永久的,接下来的其他操作不应该对其有任何影响,并且不能回滚。
redo log存在的背景
redo log与undo log都属于InnoDB的事务日志,下面聊一下redo log存在的背景
InnoDB作为MySQL的存储引擎,数据时放在磁盘的,但是如果每次读写数据都需要磁盘IO,效率会很低,为此,InnoDB提供了缓存(Buffer Pool),BP中包含了部分数据页的映射,作为访问数据库的缓冲;当从数据库读取数据时,会首先写入BP,BP中修改的数据会定期刷新到磁盘中(这一过程称为刷脏)
BP的使用大大提高了读写数据的效率,但是也带来了新的问题,如果MySQL宕机,而此时BP中修改的数据还没有刷新的磁盘,就会导致数据的丢失,事务的持久性无法保证。
持久性实现原理 redo log
redo log就被引入来解决这个问题(宕机导致BP中的数据没有刷新磁盘,造成数据丢失),当数据被修改时,除了修改BP中的数据,还会在redo log中记录这次操作,当事务提交时,会调用fsync接口对 redo log进行刷盘,如果MySQL宕机,重启时可以读取redo log中的数据,对数据库进行恢复,redo log采用的是WAL(Write-ahead logging,预写式日志), 所有修改先写入日志,在更新到BP,保证了数据不会因为MySQL宕机而丢失,从而满足了持久性的要求
。
既然redo log也需要在事务提交是将日志写入磁盘,为什么它比直接将BP中修改的数据写入磁盘(即刷脏)要快呢?
- 刷脏是随机IO,因为每次修改的数据位置随机,但写redo log是追加操作,属于顺序IO
- 刷脏是以数据页(Page)为单位的,MySQL默认页的大小是16KB,一个Page上一个小修改都要整页写入,而redo log中只包含真正需要写入的部分,无效IO大大的减少。
redo log 与 binlog
我们知道,在MySQL中还存在 binlog(二进制日志) 也可以记录写操作并用于数据的恢复,但二者是有着根本的不同的:
(1)作用不同:redo log是用于crash recovery的,保证MySQL宕机也不会影响持久性;binlog是用于point-in-time recovery的,保证服务器可以基于时间点恢复数据,此外binlog还用于主从复制,binlog简单描述binlog实现主从复制原理以及工作流程
(2)层次不同:redo log是InnoDB存储引擎实现的
,而binlog是MySQL的服务器层(可以参考文章前面对MySQL逻辑架构的介绍)实现的,同时支持InnoDB和其他存储引擎
。
(3)内容不同:redo log是物理日志,内容基于磁盘的Page
;binlog的内容是二进制的,根据binlog_format参数的不同,可能基于sql语句、基于数据本身或者二者的混合。
(4)写入时机不同:binlog在事务提交时写入;redo log的写入时机相对多元:
- 前面曾提到:当事务提交时会调用fsync对redo log进行刷盘;这是默认情况下的策略,修改innodb_flush_log_at_trx_commit参数可以改变该策略,但事务的持久性将无法保证。
- 除了事务提交时,还有其他刷盘时机:如master thread每秒刷盘一次redo log等,这样的好处是不一定要等到commit时刷盘,commit速度大大加快。
4.I隔离性实现原理
隔离性定义
与原子性和持久性侧重与研究事务本身不同,隔离性研究的是不同事务之间的相互影响,隔离性是指,事务内部的操作与其他事务是隔离的,并发执行的各个事务之间不能互相干扰
,严格的隔离性对应了事务的隔离级别中的Serializable(可串行化),但实际应用中处于性能考虑很少会使用次级别。MySQL隔离级别与脏读不可重复读幻读参考
隔离性追求的是并发情况下事务之间互不干扰,简单起见,我们主要考虑最简单的读操作和写操作(加锁读等特殊情况会特殊说明),那么隔离性的探讨,主要可以分为两个方面。
- (一个事务)的写操作对(另一个事务)写操作的影响:
锁机制保证隔离性
- (一个事务)的写操作对(另一个事务)读操作的影响:
MVCC保证隔离性
锁机制的原理简单概述
锁机制的基本原理可以概括为:事务在修改数据之前,需要先获得相应的锁;获得锁之后,事务便可以修改数据;该事务操作期间,这部分数据是锁定的,其他事务如果需要修改数据,需要等待当前事务提交或回滚后释放锁。(共享锁和独占锁)
后续展望
由于锁机制和MVCC也属于MySQL的核心难点,我们这里就不在过多阐述,详情见后续文章。
1.后续之MVCC详解
2.后续之MVCC是否能解决幻读&next-key lock解决幻读
5.C一致性实现原理
一致性定义
一致性是指事务执行的结果必须是使数据库从一个一致性状态变到另一个一致状态,即数据库的完整性没有被破坏,事务执行的前后都是合法的状态。
数据库的完整性包括但不限于:实体完整性(如行的主键存在且唯一)、列完整性(如字段的类型、大小、长度要符合要求)、外键约束、用户自定义完整性。
实现
可以说,一致性是事务追求的最终目标:前面提到的原子性、持久性和隔离性,都是为了保证数据库状态的一致性。此外,除了数据库层面的保障,一致性的实现也需要应用层面进行保障。
实现一致性的措施包括:
- 保证原子性、持久性和隔离性,如果这些特性无法保证,事务的一致性也无法保证
- 数据库本身提供保障,例如不允许向整形列插入字符串值、字符串长度不能超过列的限制等
- 应用层面进行保障,例如如果转账操作只扣除转账者的余额,而没有增加接收者的余额,无论数据库实现的多么完美,也无法保证状态的一致
6.总结
下面总结一下ACID特性及其实现原理:
- 原子性:语句要么全执行,要么全不执行,
是事务最核心的特性
,事务本身就是以原子性来定义的;实现主要基于undo log - 持久性:保证事务提交后不会因为宕机等原因导致数据丢失;实现主要基于redo log
- 隔离性:保证事务执行尽可能不受其他事务影响;InnoDB默认的隔离级别是RR(可重复读),RR的实现主要基于锁机制(包含next-key lock)、MVCC(包括数据的隐藏列、基于undo log的版本链、ReadView)
- 一致性:事务追求的最终目标,一致性的实现既需要数据库层面的保障,也需要应用层面的保障