- 安装 Hadoop 依赖的软件
• Ubuntu 需要单独安装:
$ sudo apt-get install ssh
$ sudo apt-get install pdsh
Ubuntu 需要执行
$ ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
- 环境变量的配置
Ubuntu 的所有环境变量需要配置在~/.profile 文件中,并在文件最结尾处添加后续内容中要求的环境变量
配置 Java 和 Hadoop 的环境变量,并修改 PATH 环境变量:
export JAVA_HOME=/home/l/Downloads/jdk-11.0.5
export PATH=#JAVA_HOME/bin:
P
A
T
H
e
x
p
o
r
t
C
L
A
S
S
P
A
T
H
=
.
:
PATH export CLASSPATH=.:
PATHexportCLASSPATH=.:JAVA_HOME/lib/de.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/l/Downloads/hadoop-3.3.0
PATH=
P
A
T
H
:
J
A
V
A
H
O
M
E
/
b
i
n
:
PATH:JAVA_HOME/bin:
PATH:JAVAHOME/bin:HADOOP_HOME/bin:$HADOOP_HOME/sbin
环境变量配置完毕后:
• Ubuntu 输入 source ~/.profile,即可让环境变量配置生效
- 在$HADOOP_HOME/etc/hadoop/core-site.xml 中添加
fs.defaultFS
hdfs://localhost:9000
- 在$HADOOP_HOME/etc/hadoop/hdfs-site.xml 中添加
dfs.replication
1
-
H
A
D
O
O
P
H
O
M
E
/
e
t
c
/
h
a
d
o
o
p
/
h
a
d
o
o
p
−
e
n
v
.
s
h
这
个
文
件
中
都
包
含
了
e
x
p
o
r
t
J
A
V
A
H
O
M
E
=
HADOOP_HOME/etc/hadoop/hadoop-env.sh 这个文件中都包含了 export JAVA_HOME=
HADOOPHOME/etc/hadoop/hadoop−env.sh这个文件中都包含了exportJAVAHOME={JAVA_HOME}这一行,需要将${JAVA_HOME}替换为 JDK 的绝对路径。
如果 export 前面有#,应该去掉#(#是注释)。 - 在$HADOOP_HOME/etc/hadoop/找到 mapred-site.xml,加入:
mapreduce.framework.name
yarn
mapreduce.application.classpath
H A D O O P M A P R E D H O M E / s h a r e / h a d o o p / m a p r e d u c e / ∗ : HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*: HADOOPMAPREDHOME/share/hadoop/mapreduce/∗:HADOOP_MAPRED_HOME/share/hadoop/mapreduce/l
ib/*
- 在$HADOOP_HOME/etc/hadoop/yarn-site.xml 中添加
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.env-whitelist
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCA
CHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
- 依次输入如下命令
$ hdfs namenode -format
$ hdfs datanode -format
$ start-dfs.sh
$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/
需要替换为自己的用户名
$ start-yarn.sh
$ mr-jobhistory-daemon.sh start historyserver - 打开浏览器,输入
http://localhost:8088 和 http://localhost:50070 能分别看到如下内容则配置正确11. OS X 如果图中的 Active Nodes 不是 1,则可能需要做如下修改
•
在 H A D O O P H O M E / e t c / h a d o o p / h d f s − s i t e . x m l 中 添 加 < p r o p e r t y > < n a m e > d f s . d a t a n o d e . d i r e c t o r y s c a n . t h r o t t l e . l i m i t . m s . p e r . s e c < / n a m e > < v a l u e > 1000 < / v a l u e > < / p r o p e r t y > • 在 HADOOP_HOME/etc/hadoop/hdfs-site.xml 中添加 <property> <name>dfs.datanode.directoryscan.throttle.limit.ms.per.sec</name> <value>1000</value> </property> • 在 HADOOPHOME/etc/hadoop/hdfs−site.xml中添加<property><name>dfs.datanode.directoryscan.throttle.limit.ms.per.sec</name><value>1000</value></property>•在HADOOP_HOME/etc/hadoop/yarn-site.xml 中添加
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage
95