一、主从延迟的常见原因?
1、大事务,从库回放时间较长,导致主从延迟
2、主库写入过于频繁,从库回放跟不上
3、参数配置不合理
4、主从硬件差异
5、网络延迟
6、表没有主键或者索引大量频繁的更新
7、一些读写分离的架构,从库的压力比较大
8、大量的DDL导致的延迟
show slave status\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 192.168.137.2
Master_User: repl
Master_Port: 3306
Connect_Retry: 60
Master_Log_File: mysql-bin.000003
Read_Master_Log_Pos: 2070
Relay_Log_File: mysql-relay-bin.000002
Relay_Log_Pos: 618
Relay_Master_Log_File: mysql-bin.000003
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Replicate_Do_DB:
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
Last_Errno: 0
Last_Error:
Skip_Counter: 0
Exec_Master_Log_Pos: 2070
Relay_Log_Space: 827
Until_Condition: None
Until_Log_File:
Until_Log_Pos: 0
Master_SSL_Allowed: No
Master_SSL_CA_File:
Master_SSL_CA_Path:
Master_SSL_Cert:
Master_SSL_Cipher:
Master_SSL_Key:
Seconds_Behind_Master: 0
Master_SSL_Verify_Server_Cert: No
Last_IO_Errno: 0
Last_IO_Error:
Last_SQL_Errno: 0
Last_SQL_Error:
Replicate_Ignore_Server_Ids:
Master_Server_Id: 2666
Master_UUID: 0b796d2d-431b-11ef-a867-000c29012dba
Master_Info_File: mysql.slave_master_info
SQL_Delay: 0
SQL_Remaining_Delay: NULL
Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates
Master_Retry_Count: 86400
Master_Bind:
Last_IO_Error_Timestamp:
Last_SQL_Error_Timestamp:
Master_SSL_Crl:
Master_SSL_Crlpath:
Retrieved_Gtid_Set: 0b796d2d-431b-11ef-a867-000c29012dba:9
Executed_Gtid_Set: 0b796d2d-431b-11ef-a867-000c29012dba:1-9
Auto_Position: 1
Replicate_Rewrite_DB:
Channel_Name:
Master_TLS_Version:
Master_public_key_path:
Get_master_public_key: 0
Network_Namespace:
1 row in set, 1 warning (0.01 sec)
二、怎么判断主从延迟
1.使用Seconds_Behind_Master(从库延迟的秒数)判断:
Seconds_Behind_Master为0,可能没有延迟
比如网络异常时,Seconds_Behind_Master为0,并不代表主从没有延迟
2.对比位点
(1)对比master_log_file和relay_master_log_file(基于位点的复制)
master_log_file: IO线程正在读取的主库binlog文件名
relay_master_log_file: SQL线程正在执行的事务对应的主库的binlog文件
如果这2个不同的话说明主从是落后很多的
(2)Read_Master_Log_Pos对比Exec_Master_Log_Pos(基于位点的复制)
Read_Master_Log_Pos: IO线程正在读取的主库的binlog文件中的位点
Exec_Master_Log_Pos: SQL线程正在读取和执行的事务对应主库binlog文件中的位点
如果两者差的很多,说明是延迟的
3.对比GTID(基于GTID复制)
Retrieved_Gtid_Set和Executed_Gtid_Set对比"-"右边最后的那个数字,如果Executed_Gtid_Set落后很多,说明存在延迟
三、主从延迟的解决方案?
1.避免大事务
把大事务拆分为小事务
2.开启多线程
3.调整一些mysql参数
(1)innodb_flush_log_at_trx_commit: 控制redolog刷新到磁盘的策略
mysql> show global variables like "innodb_flush_log_at_trx_commit";
若为0: 把redo log buffer写到操作系统缓存,再刷新到磁盘
若为1: 每次提交事务都将redo log buffer写到操作系统缓存,再刷新到磁盘(最慢)
若为2:每次事务提交都将redo log buffer写到操作系统缓存,再由操作系统来管理刷盘
设置为0或者2,可以临时缓解一下从库的延迟
(2)sync_binlog
mysql> show global variables like "sync_binlog";
若为0: 表示二进制日志从不同步到磁盘,依赖操作系统刷盘
若为1: 表示二进制日志每组事务提交都会刷盘(尽管很安全,但是是最慢的)
若为n: 每n组事务提交落盘一次(比如:若为100: 每100组事务提交落盘一次)
建议设置为大于1的值,比如100
4.调整从库机器配置
5.网络问题解决方案
(1)调整复制延迟参数
(2)提高网络宽带和稳定性
(3)使用复制链
在网络延迟较大的情况下,可以考虑多级主从复制,也称为复制链。
在这种情况下,一个从节点可以成为另一个从节点的主节点,这样可以分散同步压力并降低网络延迟对整个系统的影响
(4)监控和报警
设置监控和警报以及实时监控网络延迟,以便可以采取措施来应对问题。一些监控工具如Prometheus、Grafana等可以帮助你实现这一目标
(5)网络优化
使用网络优化技术,例如使用专用VPN,SD-WAN等,来减少延迟和丢包.
(6)备份和恢复策略
考虑实施定期的备份和恢复策略,以便在数据同步出现问题,可以迅速恢复丢失的数据。
6.增加主键,索引
7.调整架构
(1)将大表单独使用一个从库复制,其他从库忽略这张表的复制
(2)具体看业务场景
8.使用PT工具执行耗时长的DDL
比如增加字段,在写好的表结构中插入字段,在某个字段之前/后
特别是5.6,强烈建议使用这个工具,因为5.6直接执行就会锁表的,
主库执行完之后,再到从库执行,会导致很长的时间延迟