Bootstrap

Hadoop的数据写入、备份、删除操作

Google 为了应对快速增长的数据处理,开发了一套算法。后来有人根据算法的思想,开发出开源的软件框架 ,就是Hadoop, 随着越来越多的组织和个人开发者在框架开发中不断贡献改进,Hadoop 已经形成一套家族产品,成为当下最成功最流行的分布式大数据处理框架。

Hadoop 受到很多组织青睐,是因为有两大因素:</p>

一、超大规模的数据处理, 通常 10TB 以上;

二、超复杂的计算工作,例如统计和模拟。

Hadoop 在很多应用场景中发挥着主要功用,如大规模统计、ETL数据挖掘、大数据智能分析、机器学习等。

Hadoop 和 传统SQL关系数据存储 有什么区别?</p>

Hadoop 读时模式(Schema on read),传统SQL是 写时模式(Schema on write).传统数据库存储时对数据进行检查,需要检查表结构定义等必须匹配后才让存储(write),否则就报错。Hadoop 是你拿过任何数据格式我都给你存储,只要你给我读取这些数据的接口程序,在用到这些数据时(read),才会检查。

左边是Schema on Read ,右边是Schema on Write。 右边数据格式不对会报错,左边更关注读数据的规则。Hadoop 是分布式数据库, 而大部分SQL是集中存储的。

举例来讲: 微信后

;