Bootstrap

大数据开发概论

大数据开发概论

在这里插入图片描述
在这里插入图片描述

大数据定义

大数据(Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。(常规软件工具指的是:Excel,数据库)

大数据概念
  • 大数据处理的数据量有多大?

在这里插入图片描述
下表体现了对于大厂,左侧的数据是需要长期维护的数据量,右侧的数据是每天接收的数据量,接收的数据量又会筛选出一小部分进行处理或存储。大厂的集群通常由好几千台数据组成。

对于核心数据,通常会存储3份。

在这里插入图片描述

  • 目前的大数据应用主要集中在PB和EB级别。

  • 大数据要解决的问题?

    • 海量数据存储
      • 现在有一个2T的文件需要存储,硬盘的总空间是满足的,但是每个磁盘空间不足以单独存储。
      • 解决方式:分布式存储
    • 海量数据运算
      • 追求数据可以被计算,以及计算的速度和效率。
  • 大数据的特点
    在这里插入图片描述

  • 大数据分析的业务步骤
    在这里插入图片描述

  • 大数据任务
    在这里插入图片描述

  • 大数据岗位需求
    在这里插入图片描述

  • 大数据学习路线

1. Linux系统
主要是在Linux系统上搭建大数据框架。
在这里插入图片描述
2. 编程语言
在这里插入图片描述
很多公司用Java和Python代替Scala,Python、SQL>Java>Scala。
大数据只是一个理念和思维,这种语言用什么描述都可以。

3. 大数据框架

打勾的是目前可用的框架:
在这里插入图片描述
核心框架:Hadoop、Hive、Spark、Flink、Kafka、HBase

4. 离线项目、实时项目

计算机组成原理
软件和硬件概述

硬件
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成。
在这里插入图片描述

大数据从业者的电脑主要考虑的是CPU和内存大小,或者说主板中最好有内存槽
硬盘最好用固态硬盘,而非机械硬盘,固态硬盘最大的好处是使用虚拟机的时候速度很快
网卡,显卡不重要

软件
计算机的软件分为系统软件和应用软件,所谓的图片,图标都是系统软件虚拟出来的结果。
操作系统是安装在裸机上的,是直接运行在"裸机"上的最基本的系统软件。

在这里插入图片描述
将消息发给对方的过程,通过应用软件把数据发给操作系统,操作系统完成了将数据传输给网卡,网卡通过网线将数据传输到对方的电脑中,从硬件里面将数据提取到操作系统,操作系统将数据发给应用软件。

操作系统

在这里插入图片描述
Unix操作系统是所有操作系统的前身,Windows主要是家用和工作用,Linux主要用于服务器(机房),Android、HarmonyOS主要是用于手机。

在这里插入图片描述

;