本文详述了Hadoop完全分布式集群的搭建步骤,包括环境配置、集群规划、Hadoop软件的安装与配置,以及集群的启动和测试过程,为读者提供了清晰的搭建指南。
本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop作为一种分布式计算框架,在处理海量数据方面具有显著优势,本文将为您详细介绍Hadoop完全分布式集群的搭建过程,帮助您快速掌握这一关键技术。
环境准备
1、操作系统:建议使用Linux操作系统,如CentOS 7。
2、Java环境:Hadoop依赖于Java,需要安装JDK 1.8或以上版本。
3、SSH:为了实现节点间的无密码登录,需要安装SSH。
4、网络配置:确保所有节点能够互相通信,配置hosts文件,以便于节点间的访问。
Hadoop集群规划
1、集群角色分配:
- NameNode:负责文件系统的元数据管理。
- DataNode:负责数据存储和读写操作。
- ResourceManager:负责资源分配和调度。
- NodeManager:负责执行任务。
2、节点规划:
- Node1:NameNode、ResourceManager
- Node2:DataNode、NodeManager
- Node3:DataNode、NodeManager
安装Java环境
1、下载JDK安装包,上传至Node1节点。
2、解压安装包:
```shell
tar -zxvf jdk-8u241-linux-x64.tar.gz -C /usr/local/
```
3、配置环境变量:
```shell
vi /etc/profile
```
在文件中添加以下内容:
```
export JAVA_HOME=/usr/local/jdk1.8.0_241
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
```
4、生效环境变量:
```shell
source /etc/profile
```
5、验证Java环境:
```shell
java -version
```
安装SSH
1、安装SSH:
```shell
yum install -y ssh
```
2、配置SSH无密码登录:
- 在Node1节点生成公钥和私钥:
```shell
ssh-keygen -t rsa -P ''
```
- 将公钥复制到其他节点:
```shell
ssh-copy-id Node2
ssh-copy-id Node3
```
3、验证SSH无密码登录:
```shell
ssh Node2
ssh Node3
```
安装Hadoop
1、下载Hadoop安装包,上传至Node1节点。
2、解压安装包:
```shell
tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/
图片来源于网络,如有侵权联系删除
```
3、配置环境变量:
```shell
vi /etc/profile
```
在文件中添加以下内容:
```
export HADOOP_HOME=/usr/local/hadoop-3.1.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
```
4、生效环境变量:
```shell
source /etc/profile
```
5、配置Hadoop:
- 修改hadoop-env.sh:
```shell
vi /usr/local/hadoop-3.1.3/etc/hadoop/hadoop-env.sh
```
在文件中添加以下内容:
```
export JAVA_HOME=/usr/local/jdk1.8.0_241
```
- 修改core-site.xml:
```shell
vi /usr/local/hadoop-3.1.3/etc/hadoop/core-site.xml
```
在文件中添加以下内容:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.1.3/data</value>
</property>
</configuration>
```
- 修改hdfs-site.xml:
```shell
vi /usr/local/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
```
在文件中添加以下内容:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.1.3/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.1.3/data/datanode</value>
</property>
</configuration>
图片来源于网络,如有侵权联系删除
```
- 修改yarn-site.xml:
```shell
vi /usr/local/hadoop-3.1.3/etc/hadoop/yarn-site.xml
```
在文件中添加以下内容:
```
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
```
- 修改mapred-site.xml:
```shell
vi /usr/local/hadoop-3.1.3/etc/hadoop/mapred-site.xml
```
在文件中添加以下内容:
```
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
启动集群
1、格式化NameNode:
```shell
hdfs namenode -format
```
2、启动NameNode:
```shell
hadoop-daemon.sh start namenode
```
3、启动DataNode:
```shell
hadoop-daemon.sh start datanode
```
4、启动ResourceManager:
```shell
yarn-daemon.sh start resourcemanager
```
5、启动NodeManager:
```shell
yarn-daemon.sh start nodemanager
```
6、检查集群状态:
```shell
hdfs dfsadmin -report
yarn nodeManager -status
```
至此,Hadoop完全分布式集群搭建完成,您可以根据实际需求,进一步优化和调整集群配置,祝您搭建成功!
评论列表