大数据岗位主要为
大数据开发工程师、大数据数仓工程师、数据分析师、数据治理/运维工程师
1.基础篇
1.Linux基础:掌握基础Linux操作命令
2.复习SQL基础:基本的sql语法及执行顺序的了解,学习sql优化
3.复习JAVA基础:大数据必备开发语言
4.PYTHON/SCALA基础:主要是Spark/Flink方向学习,目前PYSPARK比较火。
学习批处理重点学习Spark,包括Spark Core、Spark SQL、GraphX这些。
学习流处理重点学习Flink,包括Flink DataStream、Flink SQL、Flink CEP这些。先学Spark、再学习Flink会容易一些。
2.数据存储与采集
大数据核心基础:hadoop基础、hive/hbase(数据存储引擎)、ETL(数据采集流程)(公司购买华为MRS,上面部署了大部分大数据组件。)
HADOOP基础:了解大数据基础组件HDFS、MR(了解)、Yarn原理及实战
Hive:大数据存储和分析重点技术组件,了解原理及实战 公司使用hive
Hbase:大数据领域Nosql列式存储数据库,了解原理及实战
ETL:数据同步和集成,重点了解流程及原理 主要了解 canal、debezium、Flink cdc(底层封装debezium)公司三种都有使用
3.数据管理与查询
数据仓库体系:掌握数仓体系搭建、维度建模等理论知识与实战 (数仓建模-范式建模/维度建模)公司采用维度建模
数据治理体系:掌握企业数据治理体系方法论与实战
数据OLAP查询:掌握主要类型的几种OLAP查询引擎,比如Kylin、Clickhouse、Impala等 公司预计采用Doris/数据湖Hudi
4.大数据工具
重点掌握部分大数据平台开发工具,类似任务调度、平台运维、消息中间件、组件协调等
Kafka:消息队列,大数据领域重点组件,掌握原理及使用
Zookeeper:分布式协调工具,了解原理及使用
Azkaban/DolphinScheduler:任务调度工具,了解原理及使用 公司架构设计采用DolphinScheduler
5.数据计算
Spark:基于RDD数据模型,批处理及近实时分析利器。需要重点掌握Spark全体系原理、实战及调优,离线数仓(spark on hive)。
Flink:基于数据流、事件模型,流处理实时分析利器。需要重点掌握Flink全体系原理、实战及调优,实时数仓(flink + kafka+分析引擎)。
两种架构:离线+实时 Lambda 架构 , 纯实时 Kappa 架构
5.数据可视化
数据的可视化展示和分析。主要了解几种常见的报表工具:PowerBI、Superset和Tableua等
公司目前用的是帆软