hadoop伪分布式搭建步骤，Hadoop伪分布式环境搭建指南，从零开始构建高效数据处理平台

欧气 2024年11月04日 07:41 0 0

本文目录导读：

准备工作
安装Hadoop
配置Hadoop
格式化HDFS
启动Hadoop服务
验证Hadoop环境

随着大数据时代的到来，Hadoop作为一款分布式数据处理框架，在处理海量数据方面发挥着越来越重要的作用，本文将详细介绍Hadoop伪分布式环境的搭建过程，帮助读者从零开始构建高效的数据处理平台。

hadoop伪分布式搭建步骤，Hadoop伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

准备工作

1、操作系统：本文以CentOS 7.5为例，确保操作系统已安装。

2、JDK：Hadoop依赖JDK，确保已安装JDK 1.8或更高版本。

3、网络环境：确保主机之间网络通信正常。

4、磁盘空间：Hadoop运行需要一定磁盘空间，根据实际需求准备。

安装Hadoop

1、下载Hadoop：访问Hadoop官网（https://hadoop.apache.org/），下载与操作系统和JDK版本兼容的Hadoop版本。

2、解压Hadoop：将下载的Hadoop压缩包解压到指定目录，如：/usr/local/hadoop。

3、配置环境变量：编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4、使环境变量生效：执行source ~/.bashrc命令。

5、检查Hadoop版本：执行hadoop version命令，查看Hadoop版本信息。

配置Hadoop

1、修改hadoop-env.sh：编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件，设置JDK路径：

hadoop伪分布式搭建步骤，Hadoop伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

export JAVA_HOME=/usr/local/jdk1.8.0_251

2、修改core-site.xml：编辑$HADOOP_HOME/etc/hadoop/core-site.xml文件，设置Hadoop运行参数：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

3、修改hdfs-site.xml：编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件，设置HDFS运行参数：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>

4、修改mapred-site.xml：编辑$HADOOP_HOME/etc/hadoop/mapred-site.xml文件，设置MapReduce运行参数：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5、修改yarn-site.xml：编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml文件，设置YARN运行参数：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

格式化HDFS

1、格式化NameNode：执行以下命令，格式化HDFS：

hdfs namenode -format

2、格式化成功后，会生成以下目录：

- /usr/local/hadoop/hdfs/namenode/current

- /usr/local/hadoop/hdfs/datanode/current

启动Hadoop服务

1、启动NameNode：执行以下命令，启动NameNode服务：

start-dfs.sh

2、启动SecondaryNameNode：执行以下命令，启动SecondaryNameNode服务：

hadoop伪分布式搭建步骤，Hadoop伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

start-SecondaryNameNode.sh

3、启动YARN：执行以下命令，启动YARN服务：

start-yarn.sh

4、启动HistoryServer：执行以下命令，启动HistoryServer服务：

mr-jobhistory-daemon.sh start historyserver

验证Hadoop环境

1、查看Hadoop进程：执行以下命令，查看Hadoop相关进程是否正常运行：

jps

2、访问Web界面：在浏览器中输入以下地址，查看Hadoop Web界面：

- NameNode：http://localhost:50070

- ResourceManager：http://localhost:8088

- HistoryServer：http://localhost:19888

通过以上步骤，我们已经成功搭建了Hadoop伪分布式环境，在实际应用中，可以根据需求进行相应的配置和优化，希望本文对您有所帮助！

标签： #hadoop伪分布式搭建全过程