R 数据可视化 —— 聚类热图 pheatmap

前言

在前面的章节中，我们介绍了如何使用 ggplot2 绘制热图

ggplot2 绘制热图的方式很多，如 geom_raster、geom_tile 等

但通常仅仅绘制热图是不够的，还需要对数据进行聚类，即绘制聚类热图。

例如，最常用的就是将差异基因的表达值绘制聚类热图，来查看基因在不同样本中的表达差异情况，或者比较不同聚类分组之间的差异。

绘制聚类热图的包有很多，我们主要介绍 pheatmap 和 ComplexHeatmap

简单示例

假设我们有如下数据

> df <- read.csv("~/Downloads/RPKM_DEG.csv", row.names = 1)
> df
       control1 control2 control3   treat1   treat2   treat3
Gene1   178.413  180.616  111.951   44.264   44.251   35.842
Gene2  1790.491   33.799 3076.195  533.618  527.694  493.286
Gene3    55.313   72.512   42.625   26.291   31.324   26.485
Gene4   138.170   10.234  168.461 1014.917  968.487 1013.409
Gene5   400.783  417.081  422.252   16.958   21.532   18.350
Gene6    16.466   10.856   17.788  117.155  113.056  117.383
Gene7   282.103  484.187  192.498   73.769   68.207   72.967
...

要绘制简单的热图，可以使用内置的 heatmap 函数

heatmap(as.matrix(df))

更改颜色，并为列添加列样本的分类颜色条

heatmap(as.matrix(df), col = rainbow(10)[3:9], ColSideColors = rep(c("pink", "purple"), each = 3))

内置函数提供的样式较少，无法对某些图形属性进行设置。

所以下面我们使用 pheatmap 包来绘制热图

pheatmap

pheatmap 对图形属性提供了更精细的控制

1. 安装导入

install.packages("pheatmap")

library(pheatmap)

2. 简单示例

pheatmap(df)

这样看起来怪怪的，应该是基因的表达量差异，所以对行进行标准化

pheatmap(df, scale = "row")

嗯，一下子就顺眼多了，实验组和对照组的基因表达量差别明显

3. 聚类

默认情况下，会对数据的行列分别进行层次聚类，如果我们想在进行层次聚类之前，先对行特征，也就是基因进行 k-means 聚类，我们可以

pheatmap(df, scale = "row", kmeans_k = 3)

k-均值聚类

先将基因聚为 3 类，再进行层次聚类

如果只想对其中行列中的一个进行聚类，可以使用 cluster_rows 和 cluster_cols 参数，取消对行或列的距离

pheatmap(df, scale = "row", cluster_rows = FALSE)

默认的距离度量为欧氏距离，也可以分别为行列指定不同的距离度量，例如

pheatmap(df, scale = "row", clustering_distance_rows = "correlation", clustering_distance_cols = "manhattan")

也可以使用 clustering_method 参数来指定不同的聚类方法，支持以下几种方法：

'ward', 'ward.D', 'ward.D2', 
'single', 'complete', 'average', 
'mcquitty', 'median', 'centroid'

pheatmap(df, scale = "row", clustering_method = "ward.D")

4. 图例

图例的设置很简单，即通过 legend_breaks 参数设置断点，legend_labels 参数设置断点处的标签

pheatmap(df, scale = "row", legend_breaks = c(-1, 0, 1), legend_labels = c("low", "median", "high"))

如果不想显示图例，直接设置 legend = F 就行

5. 边框

设置边框颜色

pheatmap(df, scale = "row", border_color = "white")

删除边框

pheatmap(df, scale = "row", border = F)

6. 单元格

默认情况下，单元格的长度和宽度会根据图片的大小自动调整，如果想固定单元格的大小，可以使用 cellwidth 和 cellheight 两个参数

pheatmap(df, scale = "row", cellwidth = 15, cellheight = 15)

如果我们想在单元格中显示对于的数值，可以设置 display_numbers = TRUE

pheatmap(df, scale = "row", display_numbers = TRUE)

对显示的数值进行格式化

pheatmap(
  df,
  scale = "row",
  display_numbers = TRUE,
  # 显示为科学计数法
  number_format = "%.1e",
  # 设置颜色
  number_color = "#4daf4a",
  # 设置数值字体大小
  fontsize_number = 10
)

或者，为 display_numbers 参数传递一个矩阵

例如，根据表达值是否大于 100 来显示不同的标记

pheatmap(
  df, scale = "row", 
  display_numbers = matrix(ifelse(df > 100, "+", "-"), nrow = nrow(df)), 
  number_color = "#4daf4a", 
  fontsize_number = 10
)

7. 分块

在不对数据进行聚类的情况下，可以对行列进行自定义划分为不同的块

pheatmap(
  df,
  scale = "row",
  cluster_rows = FALSE,
  cluster_cols = FALSE,
  gaps_col = 3,
  gaps_row = c(8, 9),
  border_color = "black"
)

或者只对行或列进行分块

pheatmap(
  df,
  scale = "row",
  cluster_rows = FALSE,
  gaps_row = c(8, 12, 16),
  border_color = "black"
)

总之，只能对未聚类的行或列进行分块

或者，根据层次聚类的结果，对数据进行分块

pheatmap(
  df,
  scale = "row",
  cutree_rows = 3,
  cutree_cols = 2
)

8. 标签

使用 main 参数来设置图像的标题

pheatmap(
  df, scale = "row", 
  main = "title"
)

可以使用 show_colnames 和 show_rownames 不显示标签

pheatmap(
  df, scale = "row", 
  show_colnames = FALSE,
  show_rownames = FALSE
)

分别设置标签的大小，同时设置列标签的倾斜角度，可选的角度有 270、0、45、90、315

pheatmap(
  df, scale = "row", 
  fontsize_row = 8,
  fontsize_col = 12,
  angle_col = 45
)

也可以使用 fontsize 参数统一行列标签的大小

也可以自定义行列标签

pheatmap(
  df, scale = "row", 
  labels_row = paste0("Gene", LETTERS[1:20]),
  labels_col = rep(c("Cancer", "Noraml"), each = 3)
)

9. 注释

我们可以分别为行和列构建分组信息，例如对于行是基因，可以将其分为癌基因和抑癌基因等，而列为样本可以分为癌症和配对正常样本，同时样本对应的患者应该会有年龄性别等信息

例如

# 行注释信息
annotation_row <- data.frame(
  GeneClass = sample(c("oncogene", "tumor suppressor"), size = 20, replace = TRUE)
)
rownames(annotation_row) <- paste0("Gene", 1:20)
# 列注释信息
annotation_col <- data.frame(
  type = rep(c("Noraml", "Cancer"), each = 3),
  Age = sample(30:60, 6)
)
rownames(annotation_col) <- colnames(df)

我们可以将这些信息以颜色条的方式添加到图中

pheatmap(
  df,
  scale = "row",
  color = rainbow(7),
  annotation_row = annotation_row,
  annotation_col = annotation_col
)

隐藏图例

pheatmap(
  df,
  scale = "row",
  color = rainbow(7),
  annotation_row = annotation_row,
  annotation_col = annotation_col,
  legend = FALSE,
  angle_col = 45,
)

10. 对象信息

我们可以回去 pheatmap 函数返回的对象的信息

> p <- pheatmap(df, scale = "row")
> summary(p)
         Length Class  Mode   
tree_row 7      hclust list   
tree_col 7      hclust list   
kmeans   1      -none- logical
gtable   6      gtable list

可以看到，返回对象 p 中包含 4 个变量，我们可以根据 tree_row 和 tree_col 提取出对应的行列顺序

> p$tree_row$order
 [1]  4  6 15  8 12 14 10 11  2  1 16 17  3  7 13 18  5  9 19 20
> p$tree_col$order
[1] 4 5 6 2 1 3

提取这些信息有助于我们对数据进行分组，用于后续分析

参数列表

数据：
https://github.com/dxsbiocc/learn/blob/main/data/RPKM_DEG.csv