本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法,仅先从最基本数据清洗规则:重复值、缺失值、异常值处理角度入手进行讨论,其余部分内容将在后期进行说明
注:本文讨论内容基于Python语言,处理对象为常规pandas读取数据表格格式Dataframe
一、重复值处理
1.数据预览
使用函数:dataframe.duplicated(subset=['A','B'],keep='first')
Dataframe通过调用duplicated(),返回一个长度等于记录条数的bool类型Series,Series中的值索引位置对应Dataframe行索引位置,根据keep参数不同,表现如下(非重复记录均为False):
keep取值 | 效果 |
‘first’(默认) | 第一条重复记录为False,其余重复记录为True |
‘last’ | 最后一条重复记录为False,其余重复记录为True |
False | 重复记录均为True |
duplicated()可以通过添加Dataframe列索引列表限制重复检索范围,dataframe.duplicated()无限制情况下思维上类似SQL采用