文章目录
1 大数据时代的挑战和机遇
1.1 大数据基础概念
大数据时代的发展
蒸汽时代——电气时代——信息时代——智能时代
大数据定义
大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集
大数据的4V
- 体量巨大Volume
- 处理速度快Velocity
- 类型繁多Variety
- 价值密度低Value
大数据处理和传统数据处理的差异
大数据处理 | 传统数据处理 | |
---|---|---|
数据规模 | 大 | 小 |
数据类型 | 繁多 | 单一 |
模式和数据的关系 | 先有数据后有模式,模式随数据增多不断演变 | 先有模式后有数据 |
处理工具 | No size fits all | One size fits all |
并行计算相关知识
节点:指的就是某一个服务器,或者是某一台计算机,或者是某一台主机
机架:存放服务器的架子。一般来说全1U设备部署数量一般不超过16台,全2U设备一般不超过12台,全4U设备一般4到7台。也就是说,一台机架上有多个服务器。
1.2 大数据应用领域
大数据金融应用
大数据教育应用
大数据公共安全应用
大数据交通规划应用
1.3 大数据计算
计算任务的分类
IO密集型任务
计算密集型任务
数据密集型任务
大数据应用的主要计算模式
批处理计算:针对大规模数据的批量处理,如MapReduce、Spark等
流计算:针对流数据的实时计算处理,如Spark、Storm、Flink、Flume、Dstream等
图计算:针对大规模图结构数据的处理,如GraphX、Gelly、Giraph、PowerGraph等
查询分析计算:大规模数据的存储管理和查询分析,如Hive、Impala、Dremel等
Hadoop大数据生态圈
1.4 企业面临的挑战和机遇
挑战
- 业务部门无清晰的大数据需求
- 企业内部数据孤岛严重
- 数据可用性低、质量差
- 数据相关管理技术和架构
- 数据安全问题
- 大数据人才缺乏
- 数据开放和隐私的权衡
机遇
大数据挖掘成为商业分析的核心
大数据成为信息技术应用的支撑点
大数据成为信息产业持续增长的新引擎
1.5 华为鲲鹏解决方案
新时代的需求
万物互联——海量数据产生需要更高算力
应用和数据的多样性需要新的计算架构
超万亿规模的计算产业空间
鲲鹏计算产业优势
以中国市场孵化和完善行业应用,与全球产业形成良性循环
和ARM共享优势生态,协同加速发展
鲲鹏计算产业整体架构
鲲鹏计算产业是基于Kunpeng处理器构建的全栈IT基础设施、行业应用及服务,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。
鲲鹏大数据解决方案
华为安全可控大数据解决方案,提供一站式高性能大数据计算及数据安全解决方案,解决公共安全行业大数据智能化建设的数据安全、效率、能耗等基础性难题。
BIgData Pro大数据解决方案
该方案采用基于公有云的存储和计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据湖。
提供了“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提高了大数据集群的资源利用率。
华为大数据解决方案优势
- 高安全
- 高性能
- 高开放
华为云大数据服务
华为云MRS服务
华为云MRS服务的优势
- 高性能
- 易运维
- 高安全
- 低成本