Bootstrap

读书笔记:大数据清洗技术01

读书笔记:大数据清洗技术

作者:哈尔滨工业大学博导王宏志

       本书一共分为七个章节,第一章绪论,第二章是有关本书使用的大数据计算平台介绍,第三章至第七章是关于处理不同问题数据的方法。对于本书的讲解在基本定义方面多会采用举例法来印证,减少对定义的描述,算法方面大部分会直接通过书中的实例来分析。

第一章 绪论

       本章从大数据的基本定义和特点出发,提出数据质量的问题的关键,结合大数据的本身特点,通过讨论,延伸出大数据清洗技术的重要性和必要性,分析了国内外相关工作研究现状,总结了本书的大概内容。

1.大数据定义及特征

       大数据指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取,管理,处理,并整理成为人类所能读的形式的信息。大数据的“大”体现在4V特征:Volume(规模性),Velocity(高速性),Variety(多样性),Value(价值稀疏性)。

;