说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。
带着问题看文章:
1、如何对数据进行预处理,提高数据质量,从而提高挖掘结果的质量?
2、如何对数据预处理,使得挖掘过程更加有效、更加容易?
一、数据预处理:概述
1、为什么要对数据预处理?
提升数据质量,确保数据满足应用要求。数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
2、数据预处理的主要任务?
数据清理(data cleaning):现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致;
数据集成(data integration):合并来自多个数据存储的数据;有助于提高其后挖掘过程的准确性和速度;
数据归约(data reduction):可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性;
数据变换(data transformation):数据被变换或统一成适合于挖掘的形式。
二、数据清理
1、缺失值处理
a、忽略元组;
b、人工填写缺失值;
c、使用一个全局常量填充缺失值;
d、使用属性的中心度量(如均值或中位数)填充缺失值;
e、使用与给定元组属同一类的所有样本的属性均值或中位数;
f、使用最可能的值填充缺失值。
2、噪声数据处理
a、分箱(binning);
b、回归(regression);
c、离群点分析(cutlier analysis);
数据清理的过程第一步是偏差检测(discrepancy detection),第二步是数据变换。
三、数据集成
1、实体识别问题;
问题描述:
实体识别问题是指在数据集成过程中,如何准确地将来自不同数据源但代表相同实体的记录识别并合并起来。由于不同数据源可能使用不同的命名规则、缩写或同义词来描述同一实体,因此可能导致识别困难。
解决方法:
- ID-Mapping:使用唯一标识符(如身份证号、学号等)来映射不同数据源中的相同实体。
- 名称标准化:通过制定统一的命名规则或利用自然语言处理技术将实体名称标准化。
- 语义分析:利用语义网、本体等技术来识别和理解不同数据源中实体名称的深层含义。
2、余和相关分析;
问题描述:
冗余是指数据集中存在可以相互推导或高度相关的属性,这些冗余数据不仅增加了存储成本,还可能影响数据挖掘的效率和准确性。
解决方法:
- 相关性分析:使用统计方法(如卡方检验、相关系数、协方差等)来检测不同属性之间的相关性,并据此判断哪些属性是冗余的。
- 数据清洗:根据相关性分析结果,删除或合并冗余属性,以减少数据集的冗余度。
3、元组重复;
问题描述:
元组重复是指数据集中存在两个或多个完全相同的记录,这可能是由于数据录入错误、数据同步问题或数据整合过程中的疏忽导致的。
解决方法:
- 去重算法:使用去重算法(如哈希表、排序加合并等)来检测并删除重复元组。
- 唯一性约束:在数据集成过程中,为关键属性设置唯一性约束,以确保不会出现重复元组。
4、数据值冲突的检测与处理;
问题描述:
数据值冲突是指对于同一实体,来自不同数据源的数据值可能不一致。这种不一致可能是由于数据源的差异、单位不统一、数据录入错误等原因导致的。
解决方法:
- 数据清洗:对不一致的数据进行清洗,包括统一单位、修正错误值等。
- 数据融合:根据一定的规则(如优先级、平均值等)将不一致的数据值融合成一个统一的值。
- 建立语义模型:通过建立底层关系数据库模式的语义模型,利用语义冲突本体来扩展关系数据库模式的语义,从而解决数据值冲突问题。
四、数据归约
数据归约策略包括雄归约、数量归约和数据压缩。
维归约(dimensionaliy reduction)减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除 。
数量归约(numerosily reduction)用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据(离群点可能也要存放)。回归和对数-线性模型就是例子。存放数据归约表示的非参数方法包括直方图、聚类、抽样和数据立方体聚集。
数据压缩(data compresion)使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。如果我们只 能近似重构原数据,则该数据归约称为有损的。对于串压缩,有一些无损压缩算法。然而, 它们一般只允许有限的数据操作。维归约和数量归约也可以视为某种形式的数据压缩。
有许多其他方法来组织数据归约方法。花费在数据归约上的计算时间不应超过或“抵消”在归约后的数据上挖掘所节省的时间。
五、数据变换与数据离散化
数据变换策略包括如下几种:
(1) 光滑(smoothing):去掉数据中的噪声。这类技术包括分箱、回归和聚类;
(2) 属性构造(或特征构造):可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程;
(3) 聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。 通常,这一步用来为多个抽象层的数据分析构造数据立方体;
(4) 规范化:把属性数据按比例缩放,使之落人一个特定的小区间,如-1.0~1.0或 0.0-1.0;
(5) 离散化:数值属性(例如,年龄)的原始值用区间标签(例如,0~10,11~20 等)或概念标签(例如,youth、adult、senior)替换。这些标签可以递归地组织成更高层概 念,导致数值属性的概念分层。对于同一个属性可以定义多个概念分层,以适合不同用户的需要;
(6) 由标称数据产生概念分层:属性,如 street,可以泛化到较高的概念层,如 city 或 country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。