数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法，仅先从最基本数据清洗规则：重复值、缺失值、异常值处理角度入手进行讨论，其余部分内容将在后期进行说明

注：本文讨论内容基于Python语言，处理对象为常规pandas读取数据表格格式Dataframe

一、重复值处理

使用函数：dataframe.duplicated(subset=['A','B'],keep='first')

Dataframe通过调用duplicated()，返回一个长度等于记录条数的bool类型Series，Series中的值索引位置对应Dataframe行索引位置，根据keep参数不同，表现如下（非重复记录均为False）：

keep取值	效果
‘first’（默认）	第一条重复记录为False，其余重复记录为True
‘last’	最后一条重复记录为False，其余重复记录为True
False	重复记录均为True

duplicated()可以通过添加Dataframe列索引列表限制重复检索范围，dataframe.duplicated()无限制情况下思维上类似SQL采用