Bootstrap

python异常值处理_被异常值过滤和变换运算卡住!别担心!3种python方法轻松搞定!...

14ce36d3d539b6001e337d151090c22fc45cb7dd.jpeg?token=fece3b9504118d3a7468d3e49749c2e0&s=BBD38A5E0C80AC435C3E9A820300608D

在数据处理与分析领域,特征工程是重要的环节,其中异常值处理是频率较高,且实际情况又复杂的场景。异常值处理不是什么复杂或需要较高技术的问题。在现今,能够进行异常值处理的工具很多,比如数据量较小的情况下,可以使用Excel、spss、SAS、Stata等标准化工具进行处理,开源的工具也较多,比如R语言、python 语言等。

异常值处理是数据质量保障的重要一步,所以其重要性不言而喻。解下来,小编就同大家一起来回顾和学习python中的异常值处理方法。python异常值处理主要包括三个方面,具体如下图所示:

574e9258d109b3de3b17dee5357f9b84820a4cdd.jpeg?token=8b7bf42cc57af1e2c84e224113ae3d11&s=88011F7C85665D0B4A55A1D60200C0A3

描述统计

异常值(outlier)的过滤和变换运算在很大程度上其实就是数组运算,具体如下:

c2cec3fdfc039245459c9ed57e5453c77c1e2501.jpeg?token=b43f68a0eaac3fcc724444c3e57e5a99&s=08A8783219DEDDC81EE1D9CA000080B2

找出某列中的值

找出某列中绝对值大小超过3的值,具体实现如下所示:

In [45]: col=data[3]

In [46]: col[np.abs(col)>3]

Out[46]:

97 3.927528

305 -3.399312

400 -3.745356

Name: 3, dtype: float64

any方法:选出全部行

要选出全部含有“超过3或-3的行”,可以利用布尔型DataFrame以及any方法:

3bf33a87e950352a7cf2a5f1aa830cf7b0118bfb.jpeg?token=d652cd316bbace712a7a909483a23682&s=40B828725BEECCCC1EC5E1DA000050B2

np.sign():控制值范围

np.sign这个ufunc返回的是一个由1和-1组成的数组,表示原始值的符号。将值限制在区间-3到3以内,具体如下:

9358d109b3de9c823e8704479541770f1bd8435b.jpeg?token=7b382aa0055571a570ed22b30ad2936d&s=48A838721DDEECC85EED9DDE0000C0B3

总结

被异常值过滤和变换运算在数据处理与分析中极为重要,3种python方法教你轻松搞定。大家可以根据实际应用场景,选择适合的python 方法进行异常值处理。喜欢就关注吧!感谢支持!

;