Bootstrap

一幅长文细学华为MRS大数据开发(一)——大数据时代的挑战和机遇

1 大数据时代的挑战和机遇

1.1 大数据基础概念

大数据时代的发展

蒸汽时代——电气时代——信息时代——智能时代


大数据定义

大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集


大数据的4V

  • 体量巨大Volume
  • 处理速度快Velocity
  • 类型繁多Variety
  • 价值密度低Value

大数据处理和传统数据处理的差异

大数据处理传统数据处理
数据规模
数据类型繁多单一
模式和数据的关系先有数据后有模式,模式随数据增多不断演变先有模式后有数据
处理工具No size fits allOne size fits all

并行计算相关知识

节点:指的就是某一个服务器,或者是某一台计算机,或者是某一台主机

机架:存放服务器的架子。一般来说全1U设备部署数量一般不超过16台,全2U设备一般不超过12台,全4U设备一般4到7台。也就是说,一台机架上有多个服务器。


1.2 大数据应用领域

image-20220808131727936


大数据金融应用

image-20220808131851336


大数据教育应用

image-20220808132004819


大数据公共安全应用

image-20220808132053314


大数据交通规划应用

image-20220808132137734


1.3 大数据计算

计算任务的分类

IO密集型任务

计算密集型任务

数据密集型任务

大数据应用的主要计算模式

批处理计算:针对大规模数据的批量处理,如MapReduce、Spark等

流计算:针对流数据的实时计算处理,如Spark、Storm、Flink、Flume、Dstream等

图计算:针对大规模图结构数据的处理,如GraphX、Gelly、Giraph、PowerGraph等

查询分析计算:大规模数据的存储管理和查询分析,如Hive、Impala、Dremel等


Hadoop大数据生态圈

image-20220808133822526


1.4 企业面临的挑战和机遇

挑战
  • 业务部门无清晰的大数据需求
  • 企业内部数据孤岛严重
  • 数据可用性低、质量差
  • 数据相关管理技术和架构
  • 数据安全问题
  • 大数据人才缺乏
  • 数据开放和隐私的权衡

机遇

大数据挖掘成为商业分析的核心

大数据成为信息技术应用的支撑点

大数据成为信息产业持续增长的新引擎


1.5 华为鲲鹏解决方案

新时代的需求

万物互联——海量数据产生需要更高算力

应用和数据的多样性需要新的计算架构

超万亿规模的计算产业空间


鲲鹏计算产业优势

以中国市场孵化和完善行业应用,与全球产业形成良性循环

和ARM共享优势生态,协同加速发展


鲲鹏计算产业整体架构

鲲鹏计算产业是基于Kunpeng处理器构建的全栈IT基础设施、行业应用及服务,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。


鲲鹏大数据解决方案

华为安全可控大数据解决方案,提供一站式高性能大数据计算及数据安全解决方案,解决公共安全行业大数据智能化建设的数据安全、效率、能耗等基础性难题。


BIgData Pro大数据解决方案

该方案采用基于公有云的存储和计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据湖。

提供了“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提高了大数据集群的资源利用率。


华为大数据解决方案优势

  • 高安全
  • 高性能
  • 高开放

华为云大数据服务

image-20220808171408971


华为云MRS服务

image-20220808171536141


华为云MRS服务的优势

  • 高性能
  • 易运维
  • 高安全
  • 低成本
;