在数据处理与分析领域,特征工程是重要的环节,其中异常值处理是频率较高,且实际情况又复杂的场景。异常值处理不是什么复杂或需要较高技术的问题。在现今,能够进行异常值处理的工具很多,比如数据量较小的情况下,可以使用Excel、spss、SAS、Stata等标准化工具进行处理,开源的工具也较多,比如R语言、python 语言等。
异常值处理是数据质量保障的重要一步,所以其重要性不言而喻。解下来,小编就同大家一起来回顾和学习python中的异常值处理方法。python异常值处理主要包括三个方面,具体如下图所示:
描述统计
异常值(outlier)的过滤和变换运算在很大程度上其实就是数组运算,具体如下:
找出某列中的值
找出某列中绝对值大小超过3的值,具体实现如下所示:
In [45]: col=data[3]
In [46]: col[np.abs(col)>3]
Out[46]:
97 3.927528
305 -3.399312
400 -3.745356
Name: 3, dtype: float64
any方法:选出全部行
要选出全部含有“超过3或-3的行”,可以利用布尔型DataFrame以及any方法:
np.sign():控制值范围
np.sign这个ufunc返回的是一个由1和-1组成的数组,表示原始值的符号。将值限制在区间-3到3以内,具体如下:
总结
被异常值过滤和变换运算在数据处理与分析中极为重要,3种python方法教你轻松搞定。大家可以根据实际应用场景,选择适合的python 方法进行异常值处理。喜欢就关注吧!感谢支持!