Bootstrap

云原生+大数据 全栈 解决方案!

我们经常说:当今社会已经进入了大数据时代。这句话,容易让人理解为在过去数据似乎离人们很远,或者说过去的时代只有小数据甚至无数据。

事实上,至从人类诞生之日起,数据就承载着人类对自然万物、生产生活的记录和表达。从古代的“结绳记事”,到现在的“智能仪表盘”,从传统数据到网络数据,从小数据到大数据,变化的只有承载数据的载体和使用数据的方法/技术,而数据作为大千世界的符码,一直存在,且亘古未变。万物皆可产生数据,万物皆可数据化。

现如今,人们经常将数据比作石油和金矿,其实在我看来,这只是从经济的视角来阐述数据的价值,而数据的价值远不止于此。数据中既有宇宙星空的奥秘,也有人类社会的百态。谁掌握了数据,谁就掌握了未来!

激活数据潜能,释放数据价值,已经成为当今社会各界的重要共识。于是乎,我们看到越来越多的组织,将数据作为一项重要的资源对其进行采集、存储、管理和利用。

01 大数据技术的发展历程

随着人们对数据越来越重视,大数据的存储和处理的技术也有了较快的发展。注意:这里的数据是指已经电子化的数据,龟壳上的甲骨文、泥板上的楔形文字、以及现代在纸质文件等都不在这个范畴。依据笔者的观察,数据存储和处理技术主要经历了4个发展阶段:

1、传统SQL数据库

传统SQL数据库也叫SMP架构数据库(全称是Symmetrical Multi-Processing,SMP),其核心原理是多处理器共享统一的内存和磁盘等,应用场景以单机为主。我们常见的Oracle、MySQL、SQLServer、DB2等都属于SMP数据架构,这种架构一直统治了数据存储江湖40年之久,且在“小数据”管理领域至今依然经久不衰。

2、MPP数据架构

随着DT时代的到来,整个社会数据大爆炸。企业动辄就需要处理TB级数据量,而SMP这种共享资源的数据存储架构对于海量数据的处理显得越发吃力。于是,一种大规模、分布式数据存储架构出现了,它就是MPP (Massively Parallel Processing)架构,它可以将查询分散到不同节点并行执行,显著地提高了数据查询的性能,MPP的出现为数据仓库和数据分析平台提供了出色的解决方案。MPP数据架构的代表有:Redshift、Terdata、GreenPlum、Vertica等。

3、Hadoop数据架构

数据的激增,带动了数据架构的变革,以Hadoop、spark为代表的开源数据库产品,对传统SQL数据库带来了巨大的影响和冲击。Hadoop的特点是不仅能够存储和处理结构化数据,还能够对半结构化数据、非结构化数据的进行采集、存储、管理和使用。Hadoop不是单一产品,而是一个庞大的软件生态系统,部署通常需要熟练掌握一系列工具,包括HDFS,Yarn,Spark,Impala,Hive,Flume,Zookeeper和Kafka等等。

4、云原生数据架构

云计算的出现和发展,让企业 IT 基础设施云化,应用转向云端。

;