Hadoop环境搭建指南，从零开始构建伪分布式集群，hadoop安装与伪分布式集群搭建头歌超详细具体步骤

欧气 2024年12月16日 08:15 0 0

本文目录导读：

Hadoop简介
环境准备
Hadoop安装
启动Hadoop集群

随着大数据时代的到来，Hadoop作为一款开源的大数据处理框架，得到了广泛的应用，本文将详细介绍Hadoop的安装过程，并搭建一个伪分布式集群，帮助您快速入门Hadoop。

Hadoop简介

Hadoop是一个分布式系统基础架构，用于存储大量数据集，它由Java编写，具有高可靠性、高扩展性、高可用性等特点，Hadoop主要由两个核心组件构成：HDFS（Hadoop Distributed File System）和MapReduce。

Hadoop环境搭建指南，从零开始构建伪分布式集群，hadoop安装与伪分布式集群搭建头歌超详细具体步骤

图片来源于网络，如有侵权联系删除

1、HDFS：分布式文件系统，用于存储大量数据。

2、MapReduce：分布式计算框架，用于处理大规模数据。

环境准备

在开始安装Hadoop之前，我们需要准备以下环境：

1、操作系统：Linux（推荐CentOS）

2、Java：JDK 1.7及以上版本

3、网络环境：确保各节点之间可以正常通信

Hadoop安装

1、下载Hadoop

访问Hadoop官网（http://hadoop.apache.org/），下载与操作系统兼容的Hadoop版本，本文以Hadoop 3.2.1为例。

2、解压Hadoop

将下载的Hadoop压缩包解压到指定目录，/opt/hadoop

3、配置环境变量

编辑.bashrc文件，添加以下内容：

Hadoop环境搭建指南，从零开始构建伪分布式集群，hadoop安装与伪分布式集群搭建头歌超详细具体步骤

图片来源于网络，如有侵权联系删除

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后执行source命令使配置生效：

source ~/.bashrc

4、配置Hadoop

进入Hadoop配置目录，/opt/hadoop/etc/hadoop

（1）配置hadoop-env.sh

编辑hadoop-env.sh文件，设置JDK路径：

export JAVA_HOME=/usr/local/java/jdk1.8.0_231

（2）配置core-site.xml

编辑core-site.xml文件，配置HDFS的存储目录和临时目录：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/data/tmp</value>
    </property>
</configuration>

（3）配置hdfs-site.xml

编辑hdfs-site.xml文件，配置HDFS的副本因子和块大小：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.block.size</name>
        <value>128M</value>
    </property>
</configuration>

（4）配置mapred-site.xml

由于Hadoop 3.0以后已经合并了MapReduce和YARN，因此需要将mapred-site.xml.template重命名为mapred-site.xml：

mv mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml文件，配置MapReduce的作业运行在YARN上：

Hadoop环境搭建指南，从零开始构建伪分布式集群，hadoop安装与伪分布式集群搭建头歌超详细具体步骤

图片来源于网络，如有侵权联系删除

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）配置yarn-site.xml

编辑yarn-site.xml文件，配置YARN的运行资源：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1024</value>
    </property>
</configuration>