Bootstrap

【2024_CUMCM】中心对数变换(CLR)[附代码]

介绍

中心对数变换(CLR)是一种针对成分数据的重要转换方法,它通过将成分数据转换为对数比值,有助于在统计分析中更有效地处理这类数据的特性

成分数据

在数据分析和统计建模中,成分数据是一种特殊类型的数据,其特点是各组成部分之和为一个常数(通常为1或100%)。这种数据在地质学、化学以及生物学等领域非常常见。

例如,地质样品中的元素比例、化学反应物的质量百分比等都属于成分数据。由于成分数据的闭合性质(即部分之和为固定值),直接在这种数据上进行统计分析会导致一些问题,如信息丢失和多重共线性。为了解决这些问题,研究人员提出了包括中心对数比变换(CLR)在内的多种数据转换方法。

公式

中心对数变换的核心在于将成分数据的相对比例转化为对数比值,然后进行中心化处理。具体来说,CLR转换公式如下:

其中,𝑥𝑖是成分数据中的一个组成部分,𝑔是所有成分的几何平均值。通过这种转换,原始成分数据被转换为对数比值,从而减少了数据之间的相关性,并使得转换后的数据具备零和性质,这意味着数据的均值为零,方差相同,这在统计分析中是非常有用的性质。

注意

  • 所有成分数据必须为正值,因为对数函数不接受零或负数值。
  • CLR转换是可逆的,也就是说,可以通过逆变换将转换后的数据还原为原始成分数据。逆变换的步骤包括将对数比值数据指数化,然后乘以几何平均值的指数。

代码

Matlab

% 假设数据存储在一个向量data中
% 计算几何平均值
geo_mean = exp(mean(log(data)));

% 对每个成分取自然对数
log_data = log(data);

% 从每个成分中减去几何平均值的对数
result = log_data - log(geo_mean);

% 打印结果
disp(result);

python 

import numpy as np

data=[0.1,0.2,0.4,0.1,0.2]
# 计算数据的对数
log_data=np.log(data)

print("对数变换后的数据:")
print(log_data)

# 计算每个特征的均值
mean_log_data = np.mean(log_data, axis=0)
print("每个特征的均值:")
print(mean_log_data)

# 中心
centered_log_data = log_data - mean_log_data
print("中心化后的数据:")
print(centered_log_data)

# 计算每个特征的方差
var_log_data = np.var(centered_log_data, axis=0)

# 标准化
normalized_log_data = centered_log_data / np.sqrt(var_log_data)

print("标准化后的数据:")
print(normalized_log_data)

;