hadoop安装与伪分布式集群搭建头歌超详细具体步骤，hadoop安装与伪分布式集群搭建

欧气 2024年09月30日 07:44 2 0

本文目录导读：

环境准备
Hadoop安装
伪分布式集群搭建
启动与测试

《Hadoop安装与伪分布式集群搭建全攻略》

环境准备

1、操作系统选择

- 建议选择Linux系统，如Ubuntu或CentOS，这里以CentOS 7为例进行讲解。

2、安装Java环境

hadoop安装与伪分布式集群搭建头歌超详细具体步骤，hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

- 首先检查系统是否已经安装Java，使用命令java -version，如果没有安装，需要下载JDK（Java Development Kit）。

- 可以从Oracle官网下载适合CentOS的JDK版本，例如JDK 8，下载完成后，使用命令rpm -ivh jdk - 8uXXX - linux - x64.rpm（XXX为具体版本号）进行安装。

- 安装完成后，配置Java环境变量，编辑/etc/profile文件，在文件末尾添加以下内容：

```bash

export JAVA_HOME=/usr/java/jdk1.8.0_XXX（根据实际安装路径）

export PATH=$PATH:$JAVA_HOME/bin

```

- 使环境变量生效，执行命令source /etc/profile。

Hadoop安装

1、下载Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载稳定版本的Hadoop，例如Hadoop 3.x版本。

- 使用命令wget https://archive.apache.org/dist/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz（以Hadoop 3.3.0为例）进行下载。

2、解压Hadoop

- 下载完成后，使用命令tar -zxvf hadoop - 3.3.0.tar.gz将Hadoop解压到指定目录，例如/usr/local目录下，可以使用命令mv hadoop - 3.3.0 /usr/local/hadoop将解压后的文件夹移动到/usr/local下。

3、配置Hadoop环境变量

- 编辑/etc/profile文件，添加以下内容：

```bash

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

- 执行命令source /etc/profile使环境变量生效。

伪分布式集群搭建

1、配置核心文件（core - site.xml）

- 在$HADOOP_HOME/etc/hadoop目录下找到core - site.xml文件，编辑该文件，添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

hadoop安装与伪分布式集群搭建头歌超详细具体步骤，hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

- 这里将Hadoop的默认文件系统设置为HDFS（Hadoop Distributed File System），并指定了本地主机（localhost）和端口（9000）。

2、配置HDFS文件（hdfs - site.xml）

- 在同一目录下找到hdfs - site.xml文件，编辑如下：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

- 这里设置了数据块的副本数为1（因为是伪分布式），并指定了NameNode和DataNode的数据存储目录。

3、配置MapReduce文件（mapred - site.xml）

- 复制mapred - site.xml.template文件为mapred - site.xml，然后编辑：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

hadoop安装与伪分布式集群搭建头歌超详细具体步骤，hadoop安装与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

- 将MapReduce的框架名称设置为YARN。

4、配置YARN文件（yarn - site.xml）

- 编辑yarn - site.xml文件：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

- 这里设置了YARN的相关服务和资源管理器的主机名。

启动与测试

1、格式化NameNode

- 在第一次启动Hadoop之前，需要格式化NameNode，使用命令hdfs namenode - format。

2、启动Hadoop服务

- 启动HDFS：执行命令start - dfs.sh。

- 启动YARN：执行命令start - yarn.sh。

3、测试Hadoop运行

- 可以通过访问Hadoop的Web界面来检查服务是否正常运行。

- 对于HDFS，访问http://localhost:9870（Hadoop 3.x版本，之前版本可能是50070），可以查看NameNode的状态信息，如文件系统的容量、使用情况等。

- 对于YARN，访问http://localhost:8088，可以查看集群中的资源使用情况、正在运行的作业等信息。

4、运行示例作业

- 可以运行Hadoop自带的示例作业来进一步测试集群的功能，运行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar wordcount /input /output（假设已经创建了/input目录并放入了一些测试文件，/output是输出目录），这个作业会统计输入文件中的单词数量，并将结果输出到/output目录下。

通过以上步骤，就可以在CentOS系统上完成Hadoop的安装与伪分布式集群的搭建，并进行基本的测试和作业运行，在实际操作过程中，可能会遇到一些权限问题或者网络配置问题，需要根据具体情况进行调整。

标签： #hadoop #安装 #伪分布式 #集群搭建