【快速上手】pyspark 集群环境下的搭建（Yarn模式）

#1.上传解压安装：上传安装包到/opt/modules
cd /opt/modules/
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
#2.重命名
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-yarn
# 3.构建软连接（这一步可有可无）
ln -s /opt/installs/spark-yarn /opt/installs/spark

④在HDFS上创建程序日志存储目录

# 第一台机器启动HDFS
start-dfs.sh
# 创建程序运行日志的存储目录
hdfs dfs -mkdir -p /spark/eventLogs/

注意：！！！首先如果没有启动hdfs，需要启动一下

⑤修改配置文件

修改spark-env.sh配置文件:

cd /opt/installs/spark/conf
mv spark-env.sh.template spark-env.sh
vim /opt/installs/spark/conf/spark-env.sh

## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件目录
export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
## 历史日志服务器
export SPARK_DAEMON_MEMORY=1g
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

修改spark-defaults.conf 文件：

cd /opt/installs/spark/conf
mv spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf

## 添加内容：
spark.eventLog.enabled true
spark.eventLog.dir hdfs://bigdata01:9820/spark/eventLogs
spark.eventLog.compress true
spark.yarn.historyServer.address bigdata01:18080
spark.yarn.jars hdfs://bigdata01:9820/spark/jars/*

修改log4j.properties:

mv log4j.properties.template log4j.properties
vim log4j.properties

# 19行：修改日志级别为WARN
log4j.rootCategory=WARN, console

上传spark jar包：

#因为YARN中运行Spark，需要用到Spark的一些类和方法
#如果不上传到HDFS，每次运行YARN都要上传一次，比较慢
#所以自己手动上传一次，以后每次YARN直接读取即可
hdfs dfs -mkdir -p /spark/jars/
hdfs dfs -put /opt/installs/spark/jars/* /spark/jars/

修改yarn-site.xml:

cd /opt/installs/hadoop/etc/hadoop

检查以下内置少什么，就配什么。
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>



<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

<property>
<name>yarn.log.server.url</name>
<value>http://bigdata01:19888/jobhistory/logs</value>
</property>


<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

3.第三步：同步bigdata01中的spark到bigdata02和03上

如果你bigdata01上有同步脚本，直接执行下面命令即可。

# 分发一下yarn-site.xml
xsync.sh yarn-site.xml
# 将第一台机器的spark-yarn分发到第二台和第三台
xsync.sh /opt/installs/spark-yarn
# 超链接也分发一下
xsync.sh /opt/installs/spark

如果没有，需要按照上面bigdata01的步骤在bigdata02 bigdata03上再安装一遍。

二、启动

# 启动yarn
start-yarn.sh
# 启动MR的JobHistoryServer：19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

三、可打开yarn界面查看任务

bigdata01:8088

【快速上手】pyspark 集群环境下的搭建（Yarn模式）

前言：

一、安装步骤

安装前准备

1.第一步：安装python

2.第二步：在bigdata01上安装spark

3.第三步：同步bigdata01中的spark到bigdata02和03上

二、启动

三、可打开yarn界面查看任务

悦读