Bootstrap

数据挖掘基础学习(1)数据清洗:重复值、缺失值、异常值处理

        本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法,仅先从最基本数据清洗规则:重复值、缺失值、异常值处理角度入手进行讨论,其余部分内容将在后期进行说明

注:本文讨论内容基于Python语言,处理对象为常规pandas读取数据表格格式Dataframe

一、重复值处理

1.数据预览

        使用函数:dataframe.duplicated(subset=['A','B'],keep='first')

        Dataframe通过调用duplicated(),返回一个长度等于记录条数的bool类型Series,Series中的值索引位置对应Dataframe行索引位置,根据keep参数不同,表现如下(非重复记录均为False):

keep取值 效果
‘first’(默认) 第一条重复记录为False,其余重复记录为True
‘last’ 最后一条重复记录为False,其余重复记录为True
False 重复记录均为True

        duplicated()可以通过添加Dataframe列索引列表限制重复检索范围,dataframe.duplicated()无限制情况下思维上类似SQL采用

;