hadoop伪分布式安装详细步骤，Hadoop伪分布式环境搭建全攻略，从零开始实现大数据处理

欧气 2024年11月06日 12:07 0 0

本文目录导读：

准备工作
安装步骤
验证安装

随着大数据时代的到来，Hadoop作为一款开源的分布式计算框架，已经成为处理海量数据的重要工具，本文将详细讲解Hadoop伪分布式环境的搭建过程，帮助您快速上手Hadoop。

准备工作

1、操作系统：推荐使用CentOS 7，其他Linux发行版可能需要修改部分配置。

hadoop伪分布式安装详细步骤，Hadoop伪分布式环境搭建全攻略，从零开始实现大数据处理

图片来源于网络，如有侵权联系删除

2、Java环境：Hadoop需要Java环境，建议使用Java 8。

3、网络环境：确保三台虚拟机之间可以互相通信。

4、软件包：Hadoop、JDK等。

安装步骤

1、安装Java

（1）下载Java 8安装包，并上传至虚拟机。

（2）解压安装包，进入解压后的目录。

（3）执行以下命令，将Java安装到系统环境变量中：

sudo cp -r jdk1.8.0_231 /usr/local/
sudo vi /etc/profile

在profile文件中添加以下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

（4）使配置生效：

source /etc/profile

2、安装Hadoop

（1）下载Hadoop 3.3.4安装包，并上传至虚拟机。

（2）解压安装包，进入解压后的目录。

hadoop伪分布式安装详细步骤，Hadoop伪分布式环境搭建全攻略，从零开始实现大数据处理

图片来源于网络，如有侵权联系删除

（3）配置Hadoop环境变量：

sudo vi /etc/profile

在profile文件中添加以下内容：

export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（4）使配置生效：

source /etc/profile

3、配置Hadoop

（1）进入Hadoop安装目录下的etc/hadoop目录。

（2）修改hadoop-env.sh文件，设置Java环境：

sudo vi hadoop-env.sh

在文件中找到JAVA_HOME，并修改为您的Java安装路径。

（3）修改core-site.xml文件，设置Hadoop运行时的基本参数：

sudo vi core-site.xml

在文件中添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

（4）修改hdfs-site.xml文件，设置HDFS存储参数：

sudo vi hdfs-site.xml

在文件中添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

（5）修改mapred-site.xml文件，设置MapReduce运行参数：

hadoop伪分布式安装详细步骤，Hadoop伪分布式环境搭建全攻略，从零开始实现大数据处理

图片来源于网络，如有侵权联系删除

sudo vi mapred-site.xml

在文件中添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（6）修改yarn-site.xml文件，设置YARN运行参数：

sudo vi yarn-site.xml

在文件中添加以下内容：

<configuration>
    <property>
        <name>yarn.resourcemanager.host</name>
        <value>localhost</value>
    </property>
</configuration>

4、格式化HDFS

hadoop namenode -format

5、启动Hadoop服务

start-dfs.sh
start-yarn.sh

验证安装

1、使用JPS命令查看Hadoop进程：

jps

输出结果应包含NameNode、SecondaryNameNode、ResourceManager和NodeManager进程。

2、使用Web界面查看HDFS和YARN状态：

在浏览器中输入http://localhost:50070/，即可查看HDFS状态；输入http://localhost:8088/，即可查看YARN状态。

本文详细讲解了Hadoop伪分布式环境的搭建过程，包括准备工作、安装步骤和验证安装，通过本文的学习，您应该能够独立完成Hadoop伪分布式环境的搭建，为后续的大数据处理学习打下基础。

标签： #hadoop伪分布式安装搭建步骤