搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建与配置开发环境实战指南

欧气 2024年10月23日 01:56 0 0

本文目录导读：

搭建Hadoop伪分布式集群的准备工作
Hadoop伪分布式集群搭建步骤
验证Hadoop集群是否启动成功

随着大数据时代的到来，Hadoop作为一款开源的大数据处理框架，在国内外得到了广泛的应用，为了更好地学习Hadoop，搭建一个伪分布式集群是必不可少的，本文将详细介绍Hadoop伪分布式集群的搭建过程，帮助读者快速掌握Hadoop的开发环境配置。

搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络，如有侵权联系删除

搭建Hadoop伪分布式集群的准备工作

1、系统环境

操作系统：Linux（推荐CentOS 7）

Hadoop版本：Hadoop 3.2.1

Java版本：Java 8

2、网络环境

确保三台虚拟机之间能够正常通信，且IP地址在同一网段。

Hadoop伪分布式集群搭建步骤

1、下载Hadoop源码

从Apache Hadoop官网（https://hadoop.apache.org/releases.html）下载Hadoop 3.2.1版本的源码包。

2、解压Hadoop源码包

将下载的Hadoop源码包解压到指定的目录，/usr/local/hadoop

3、配置环境变量

在Linux系统中，编辑bashrc文件，添加Hadoop的环境变量：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使用source命令使配置生效：

source ~/.bashrc

4、配置Hadoop

搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络，如有侵权联系删除

（1）编辑hadoop-env.sh文件

在Hadoop根目录下的etc/hadoop目录中，编辑hadoop-env.sh文件，设置Java环境：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.x86_64

（2）编辑core-site.xml文件

在Hadoop根目录下的etc/hadoop目录中，编辑core-site.xml文件，配置Hadoop的存储路径：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

（3）编辑hdfs-site.xml文件

在Hadoop根目录下的etc/hadoop目录中，编辑hdfs-site.xml文件，配置HDFS的副本数量和存储路径：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>

（4）编辑mapred-site.xml文件

在Hadoop根目录下的etc/hadoop目录中，编辑mapred-site.xml文件，配置MapReduce运行模式：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）编辑yarn-site.xml文件

在Hadoop根目录下的etc/hadoop目录中，编辑yarn-site.xml文件，配置YARN的集群模式：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5、格式化NameNode

在Hadoop根目录下，执行以下命令格式化NameNode：

hdfs namenode -format

6、启动Hadoop集群

（1）启动HDFS

搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络，如有侵权联系删除

start-dfs.sh

（2）启动YARN

start-yarn.sh

（3）启动HistoryServer

mr-jobhistory-daemon.sh start historyserver

验证Hadoop集群是否启动成功

1、访问HDFS Web界面

在浏览器中输入http://localhost:50070，查看HDFS Web界面，确认HDFS是否启动成功。

2、访问YARN Web界面

在浏览器中输入http://localhost:8088，查看YARN Web界面，确认YARN是否启动成功。

3、执行Hadoop示例程序

在Hadoop根目录下的share/hadoop/mapreduce目录中，找到hadoop-examples.jar文件，执行以下命令：

hadoop jar hadoop-examples.jar wordcount /input/wordcount.txt /output/wordcount

在Hadoop根目录下的etc/hadoop目录中，找到wordcount.txt文件，内容如下：

Hello Hadoop
Hello World
Hadoop is great

执行上述命令后，Hadoop会处理wordcount.txt文件，并将结果输出到/output/wordcount目录。

通过以上步骤，我们已经成功搭建了一个Hadoop伪分布式集群，并配置了开发环境，可以在这个环境中学习Hadoop的各种应用场景，如HDFS、MapReduce、YARN等，希望本文能对您有所帮助。

标签： #配置开发环境 - hadoop安装与伪分布式集群搭建研究