Bootstrap

GaussDB日常维护操作

日常维护检查

实例状态检查:

#检查集群实例状态
gs_check -U omm -i CheckClusterState

cm_ctl query -Cvipd

#检查主备DN的角色和同步状态
gs_ctl query -D <实例数据目录>

版本检查:

select version();

数据库对象占用磁盘空间检查:

select pg_size_pretty(pg_database_size('postgres'));    --数据库占用磁盘空间

select pg_size_pretty(pg_total_relation_size('pg_statistic'));  --表数据+索引数据
select pg_size_pretty(pg_table_size('pg_statistic'));           --表数据
select pg_size_pretty(pg_indexes_size('pg_statistic'));         --索引数据

锁信息检查:

--检查锁信息
select * from pg_locks;

--检查等待锁的线程状态
select * from pg_thread_wait_status where wait_status='acquire lock';

统计事件:

--事件的启动时间、事务启动时间、SQL启动时间、状态变更时间等信息
select backend_start,xact_start,query_start,state_change,state,datname,usename,application_name,client_hostname from pg_stat_activity;

--统计当前的会话计数信息
select count(*) from pg_stat_activity;

--查询使用内存最多的会话
select * from pv_session_memory_detail() order by usedsize desc limit 10;

对象检查:

--查看表和索引信息
\d+ <TABLE_NAME>
\d+ <INDEX_NAME>

select * from pg_statistic;   --统计信息
select * from pg_partition;   --分区表信息
select * from pg_constraint;  --约束信息

操作系统参数

进行操作系统参数的单项检查(本地执行加-L):

gs_check -i CheckCPU          #检查CPU使用率
gs_check -i CheckCpuCount     #检查CPU核数
gs_check -i CheckMemInfo      #检查内存大小
gs_check -i CheckSwapMemory   #检查交换内存
gs_check -i CheckOSVer        #检查操作系统版本
gs_check -i CheckKernelVer    #检查内核版本
gs_check -i CheckSysParams    #检查操作系统参数

数据库健康状态

检查集群状态:

gs_check -U omm -i CheckClusterState

cm_ctl query -Cvipd

支持按场景检查数据库健康状况:

gs_check -e inspect    #例行巡检
gs_check -e health     #健康检查
gs_check -e replace    #节点替换检查
gs_check -e install    #安装前检查
gs_check -e expand     #扩容前检查
gs_check -e upgrade    #升级前巡检
gs_check -e binary_upgrade   #就地升级前检查

日志收集

数据库故障时,可以使用gs_collector工具收集日志。

gs_collector -h 22.89.73.13 -o /data/backup/ --begin-time="20240112 23:00" --end-time="20240113 01:00" 

通过--begin-time--end-time过滤不同时间段的日志,-h指定要收集的DN节点(默认收集所有节点的日志),-o指定收集日志保存的路径。

日志清理

$GAUSSLOG路径下文件名不带current的历史日志可以定期清理。

应用连接数

查看最大连接数:

show max_connections;

查看当前连接数:

select count(*) from (select pg_stat_get_backend_idset() as backendid);

查看当前活跃会话:

select datname,pid,sessionid,usename,application_name,client_addr,state,query_id,query from pg_stat_activity;

杀会话:

--指定会话的pid,成功会返回t,否则返回f
select pg_terminate_backend(PID);

扩容最大连接数:

gs_guc set -Z datanode -N all -I all -c "max_connections=1024"

然后重启数据库。

表的例行维护

为了保证数据库的有效运行,数据库必须在插入、删除操作后,基于客户场景,定期做VACUUM FULL和ANALYZE,更新统计信息,以便获得更优的性能。

📖 VACUUM与VACUUM FULL的主要区别:

  • VACUUM命令不会阻塞SELECT和DML语句,但是会阻塞ALTER TABLE语句。
  • VACUUM命令只是将被删除的dead tuples标记为可重用,因此数据文件占用的实际物理磁盘空间并不会缩小。
  • VACUUM FULL命令会阻塞对表的所有读写操作,包括SELECT语句。
  • VACUUM FULL会物理删除dead tuples,把释放的空间交还给操作系统。本质上是新建了一个数据文件并把live tuples迁移过去,因此数据文件占用的磁盘空间会缩小到实际的数据量。

使用VACUUM或VACUUM FULL命令,进行磁盘空间回收:

vacuum TABLE_NAME;                 --清理普通表
vacuum TABLE_NAME partition(P1);   --清理表分区

vacuum full TABLE_NAME;  --彻底回收死元组占用的空间 

使用ANALYZE语句更新统计信息:

analyze TABLE_NAME;
analyze verbose TABLE_NAME;  --更新表统计信息并输出相关信息

vacuum analyze TABLE_NAME;   --清理死元组的同时更新统计信息

维护建议:

  • 定期对部分大表做VACUUM FULL,在性能下降后为全库做VACUUM FULL,目前暂定每月做一次VACUUM FULL;
  • 定期对系统表做VACUUM FULL,主要是PG_ATTRIBUTE
  • 启用系统自动清理线程(AUTOVACUUM)自动执行VACUUM和ANALYZE,回收被标识为删除状态的记录空间,并更新表的统计数据。

索引重建

数据库经过多次删除操作后,索引页面上的索引键将被删除,造成索引膨胀。例行重建索引,可有效的提高查询效率。

数据库支持的索引类型为B-tree索引,例行重建索引可有效的提高查询效率。

在重建索引前,用户可以通过临时增大maintenance_work_mempsort_work_mem的取值来加快索引的重建。

重建索引有以下两种方式:

  • (1)先运行DROP INDEX语句删除索引,再运行CREATE INDEX语句创建索引。

在删除索引过程中,会在父表上增加一个短暂的排他锁,阻止相关读写操作。在创建索引过程中,会锁住写操作但是不会锁住读操作,此时读操作只能使用顺序扫描

drop index IDX_T1_COL1;
create index IDX_T1_COL1 on T1(COL1);
  • (2)使用REINDEX语句重建索引。
    • 使用REINDEX TABLE语句重建索引,会在重建过程中增加排他锁,阻止相关读写操作。
    • 使用REINDEX INTERNAL TABLE语句重建desc表(包括列存表的cudesc表)的索引,会在重建过程中增加排他锁,阻止相关读写操作。
reindex table T1;
reindex internal table T1;

慢SQL诊断

查询SQL语句信息,需要合理设置GUC参数track_stmt_stat_leveltrack_stmt_stat_level参数控制语句执行跟踪的级别,第一部分控制全量SQL,第二部分控制慢SQL。对于慢SQL,当track_stmt_stat_level的值为非OFF时,且SQL执行时间超过log_min_duration_statement,会记录为慢SQL。默认值为"OFF,L0",建议设置为"L0,L0"

--查看某一时间段的SQL语句执行信息:
select * from DBE_PERF.get_global_full_sql_by_timestamp('2025-01-15 09:25:22', '2025-01-15 10:00:41');

--查看某一时间段的慢SQL执行信息:
select * from DBE_PERF.get_global_slow_sql_by_timestamp('2025-01-15 09:25:22', '2025-01-15 10:00:41');

--查看主节点SQL执行信息
select * from statement_history where start_time>('2025-01-15 09:25:22') and finish_time<('2025-01-15 10:00:41');

--查看备节点SQL执行信息(只能在备节点执行)
select * from dbe_perf.standby_statement_history(true, '2025-01-15 09:25:22', '2025-01-15 10:00:41');
;