深入浅出，Hadoop安装与伪分布式集群搭建全攻略，搭建hadoop伪分布式环境步骤

欧气 2024年11月27日 06:56 1 0

本文目录导读：

随着大数据时代的到来，Hadoop作为一款分布式存储和处理框架，已经成为了处理海量数据的重要工具，本文将深入浅出地为大家讲解Hadoop的安装与伪分布式集群搭建，帮助大家快速入门。

图片来源于网络，如有侵权联系删除

Hadoop简介

Hadoop是一个开源的分布式计算框架，主要用于处理海量数据，它由三个主要组件组成：HDFS（分布式文件系统）、MapReduce（分布式计算框架）和YARN（资源调度框架）。

1、操作系统：Linux或Unix系统，如CentOS、Ubuntu等。

2、Java环境：Hadoop需要Java环境支持，版本要求为1.6及以上。

3、网络环境：确保集群中各节点之间的网络通信正常。

1、下载Hadoop安装包：从Apache官网（http://hadoop.apache.org/）下载适合自己操作系统的Hadoop安装包。

2、解压安装包：将下载的Hadoop安装包解压到指定目录，如/home/hadoop/hadoop-3.3.4。

3、配置环境变量：在.bashrc文件中添加以下内容：

export HADOOP_HOME=/home/hadoop/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4、刷新环境变量：执行以下命令刷新环境变量：

深入浅出，Hadoop安装与伪分布式集群搭建全攻略，搭建hadoop伪分布式环境步骤

图片来源于网络，如有侵权联系删除

source ~/.bashrc

5、配置Hadoop配置文件：

（1）配置hadoop-env.sh：修改该文件，设置Java环境变量：

export JAVA_HOME=/usr/local/java/jdk1.8.0_231

（2）配置core-site.xml：修改该文件，设置Hadoop运行时的基本参数，如HDFS的存储路径等：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

（3）配置hdfs-site.xml：修改该文件，设置HDFS的副本因子等参数：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

（4）配置mapred-site.xml：修改该文件，设置MapReduce的相关参数：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）配置yarn-site.xml：修改该文件，设置YARN的相关参数：

<configuration>
    <property>
        <name>yarn.resourcemanager.host</name>
        <value>localhost</value>
    </property>
</configuration>

6、格式化HDFS：执行以下命令格式化HDFS：

hdfs namenode -format

7、启动Hadoop服务：

深入浅出，Hadoop安装与伪分布式集群搭建全攻略，搭建hadoop伪分布式环境步骤

图片来源于网络，如有侵权联系删除

（1）启动NameNode：

start-dfs.sh

（2）启动ResourceManager：

start-yarn.sh

1、修改slaves文件：在Hadoop的安装目录下，找到slaves文件，并将集群中所有节点的IP地址或主机名添加到该文件中。

2、启动SecondaryNameNode：

start-secondarynamenode.sh

至此，Hadoop伪分布式集群搭建完成，您可以通过浏览器访问http://localhost:50070/查看HDFS的Web界面，以及http://localhost:8088/查看YARN的Web界面。

本文详细介绍了Hadoop的安装与伪分布式集群搭建，希望能对您在学习和使用Hadoop过程中有所帮助，在实际应用中，您可以根据自己的需求调整集群配置，以适应不同的业务场景。