hadoop伪分布式环境搭建步骤，第2关:配置开发环境 - hadoop安装与伪分布式集群搭建

欧气 2024年10月01日 07:56 2 0

《Hadoop伪分布式环境搭建全流程：开启大数据处理之旅》

一、引言

在大数据时代，Hadoop作为一个开源的分布式计算框架，被广泛应用于数据存储和大规模数据处理，搭建Hadoop伪分布式集群是深入学习和实践Hadoop的重要基础，通过这种方式，我们可以在单台机器上模拟分布式环境，便于开发和测试相关应用。

二、环境准备

hadoop伪分布式环境搭建步骤，第2关:配置开发环境 - hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

1、操作系统

- 选择合适的操作系统，如Ubuntu或CentOS，这里以Ubuntu为例，确保系统已经安装并且网络连接正常。

- 建议使用较新版本的Ubuntu，例如Ubuntu 20.04 LTS，以获得更好的兼容性和性能。

2、Java环境安装

- Hadoop运行依赖于Java环境，首先检查系统是否已经安装Java，如果没有，通过以下命令安装OpenJDK（在Ubuntu下）：

sudo apt - get update

sudo apt - get install openjdk - 11 - jdk

- 安装完成后，通过java - version命令验证Java版本。

三、Hadoop下载与安装

1、下载Hadoop

- 访问Hadoop官方网站（https://hadoop.apache.org/），选择合适的版本进行下载，可以选择稳定版本如Hadoop 3.x。

- 使用wget命令下载，假设将Hadoop下载到/opt目录下：

cd /opt

wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.1/hadoop - 3.3.1.tar.gz

2、解压Hadoop

- 使用以下命令解压下载的Hadoop压缩包：

tar - zxvf hadoop - 3.3.1.tar.gz

- 为了方便管理，可以将解压后的文件夹重命名为hadoop：

hadoop伪分布式环境搭建步骤，第2关:配置开发环境 - hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

mv hadoop - 3.3.1 hadoop

四、Hadoop伪分布式配置

1、配置文件修改

- 进入hadoop/etc/hadoop目录，这里主要需要修改core - site.xml、hdfs - site.xml和mapred - site.xml以及yarn - site.xml等配置文件。

- 在core - site.xml中添加以下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

- 在hdfs - site.xml中配置：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/user/hadoopdata/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/user/hadoopdata/datanode</value>
    </property>
</configuration>

- 对于mapred - site.xml，设置为：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

- 在yarn - site.xml中：

<configuration>
    <property>
        <name>yarn.nodemanager.aux - services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

- 注意，在配置文件中的路径（如/home/user/hadoopdata）需要根据实际情况进行修改。

2、设置环境变量

- 打开~/.bashrc文件，添加以下内容：

export HADOOP_HOME = /opt/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

- 保存文件后，在终端执行source ~/.bashrc使环境变量生效。

五、启动Hadoop伪分布式集群

1、格式化HDFS

- 在首次启动Hadoop之前，需要格式化HDFS，在终端执行：

hdfs namenode - format

hadoop伪分布式环境搭建步骤，第2关:配置开发环境 - hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

- 格式化成功后，会显示相关的格式化信息。

2、启动服务

- 启动HDFS服务：start - dfs.sh

- 启动YARN服务：start - yarn.sh

- 可以通过jps命令查看启动的进程，应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。

六、测试Hadoop伪分布式集群

1、创建测试文件

- 在本地创建一个简单的文本文件，例如test.txt可以是一些简单的单词或句子。

2、上传文件到HDFS

- 使用hdfs dfs - put test.txt /user/命令将本地文件上传到HDFS的/user/目录下。

3、运行MapReduce示例

- Hadoop自带了一些MapReduce示例程序，可以运行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.1.jar wordcount /user/test.txt /user/output，这个命令会对上传到HDFS中的test.txt文件进行单词计数，并将结果输出到/user/output目录下。

- 可以通过hdfs dfs - cat /user/output/part - r - 00000查看计算结果。

七、总结

通过以上步骤，我们成功搭建了Hadoop伪分布式集群，并进行了简单的测试，在搭建过程中，需要注意配置文件的正确设置、环境变量的配置以及服务的正确启动顺序，Hadoop伪分布式环境为我们学习和开发大数据应用提供了一个便捷的平台，我们可以在此基础上进一步深入研究Hadoop的各种功能，如分布式存储、MapReduce计算框架以及与其他大数据技术的集成等。

标签： #hadoop #伪分布式 #环境搭建 #开发环境