hadoop伪分布式部署，hadoop伪分布式集群搭建过程

欧气 2024年09月30日 04:30 3 0

本文目录导读：

环境准备
Hadoop安装
Hadoop伪分布式配置
格式化HDFS
启动Hadoop服务
验证Hadoop伪分布式集群

《Hadoop伪分布式集群搭建全流程》

环境准备

1、操作系统

- 选择合适的Linux发行版，如Ubuntu或CentOS，这里以CentOS 7为例，确保系统已经安装并更新到最新版本。

2、Java环境安装

- Hadoop运行需要Java环境，首先检查系统是否已经安装Java，如果没有，可以通过以下命令安装OpenJDK：

- 在CentOS上，执行yum install -y java - 1.8.0 - openjdk - devel。

- 安装完成后，设置Java环境变量，编辑/etc/profile文件，添加以下内容：

export JAVA_HOME = /usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.xxx（xxx为具体版本号）

export PATH = $PATH:$JAVA_HOME/bin

- 执行source /etc/profile使环境变量生效。

Hadoop安装

1、下载Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载适合的Hadoop版本，下载hadoop - 3.3.0版本。

- 将下载的压缩包解压到指定目录，如/usr/local/hadoop，可以使用以下命令：

tar -zxvf hadoop - 3.3.0.tar.gz -C /usr/local/

mv /usr/local/hadoop - 3.3.0 /usr/local/hadoop

2、配置Hadoop环境变量

- 编辑/etc/profile文件，添加以下内容：

export HADOOP_HOME = /usr/local/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

- 执行source /etc/profile使环境变量生效。

Hadoop伪分布式配置

1、核心配置文件（core - site.xml）

- 进入$HADOOP_HOME/etc/hadoop目录，编辑core - site.xml文件。

- 添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 这个配置指定了Hadoop的默认文件系统为HDFS，并且设置了NameNode运行在本地的9000端口。

2、HDFS配置文件（hdfs - site.xml）

- 在$HADOOP_HOME/etc/hadoop目录下编辑hdfs - site.xml文件。

- 添加如下配置：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/hdfs/datanode</value>

</property>

</configuration>

```

- 这里dfs.replication设置为1，因为是伪分布式环境，同时指定了NameNode和DataNode的数据存储目录。

3、MapReduce配置文件（mapred - site.xml）

- 从mapred - site.xml.template复制一份为mapred - site.xml。

- 编辑mapred - site.xml，添加以下配置：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这表示MapReduce任务将运行在YARN上。

4、YARN配置文件（yarn - site.xml）

- 在$HADOOP_HOME/etc/hadoop目录下编辑yarn - site.xml文件。

- 添加以下配置：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

- 这里指定了YARN的相关服务和资源管理器运行在本地主机。

格式化HDFS

1、执行hdfs namenode - format命令。

- 这个命令会初始化HDFS文件系统，创建NameNode的元数据存储目录等操作，如果格式化成功，会看到类似“Formatting using clusterid: CID - xxx”的信息。

启动Hadoop服务

1、启动HDFS

- 执行start - dfs.sh命令，可以通过jps命令查看启动的进程，应该能看到NameNode和DataNode进程。

2、启动YARN

- 执行start - yarn.sh命令，再次使用jps命令查看，会看到ResourceManager和NodeManager进程。

验证Hadoop伪分布式集群

1、HDFS验证

- 通过浏览器访问http://localhost:9870（Hadoop 3.x版本中HDFS的Web界面端口），可以查看HDFS的文件系统信息，如文件块信息、存储使用情况等。

2、YARN验证

- 访问http://localhost:8088（YARN的Web界面端口），可以查看正在运行的MapReduce任务、资源使用情况等信息。

通过以上步骤，就成功搭建了Hadoop伪分布式集群，可以在这个环境下进行大数据相关的开发和测试工作，如运行MapReduce程序、使用Hive等数据仓库工具等。

标签： #hadoop #伪分布式 #部署 #集群搭建