Bootstrap

数据挖掘学习——数据预处理方法代码汇总(python)

目录

一、归一化处理方法

(1)min-max方法(离散归一化)

(2)零-均值规范化方法

(3)小数定标规范化

二、插值法

(1)拉格朗日插值法

三、相关性分析

(1)pearson相关性系数

(2)spearman相关性系数

四、主成分分析(PCA)


一、归一化处理方法

归一化常用方法有:

(1)min-max方法(离散归一化)

对原始数据的线性变换,将数据点映射到了[0,1]区间(默认)

一般调用sklearn库中的min_max_scaler函数实现,代码如下:

from sklearn import preprocessing
import numpy as np

x =  np.array(
    [[1972, 685, 507, 962, 610, 1434, 1542, 1748, 1247, 1345],

[262, 1398, 1300, 1056, 552, 1306, 788, 1434, 907, 1374],])

# 调用min_max_scaler函数
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)

(2)零-均值规范化方法

    把特征值的分布变化到均值为零。这种做法可以消除不同特征(或样本)之间的量级差异,使得特征之间的分布更加接近的变化,这在某些模型(如SVM)中,能够极大地提升处理效果,促使模型更加稳定,提升预测准确度。

代码实现:

import numpy as np
# 零-均值规范化
def ZeroAvg_Normalize(data):
    text=(data - data.mean())/data.std()
    return text

(3)小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。

实现代码如下:

import numpy as np

# 小数定标规范化
def deci_sca(data):
    new_data=data/(10
;