hadoop伪分布式搭建全过程，Hadoop伪分布式环境搭建全攻略，轻松实现大数据处理入门

欧气 2024年10月21日 08:55 0 0

本文目录导读：

环境准备
安装步骤
验证环境

随着大数据时代的到来，Hadoop作为一款开源的分布式计算框架，已经成为处理大规模数据集的利器，本文将详细讲解Hadoop伪分布式环境搭建的全过程，帮助您轻松入门大数据处理。

环境准备

1、操作系统：Linux（推荐CentOS 7）

hadoop伪分布式搭建全过程，Hadoop伪分布式环境搭建全攻略，轻松实现大数据处理入门

图片来源于网络，如有侵权联系删除

2、JDK：Java Development Kit（推荐1.8）

3、Hadoop：Hadoop-2.7.3（或更高版本）

安装步骤

1、安装JDK

（1）下载JDK安装包：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

（2）解压安装包：tar -zxvf jdk-8u231-linux-x64.tar.gz

（3）设置环境变量：编辑profile文件，添加以下内容

export JAVA_HOME=/usr/local/java/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

（4）使配置生效：source /etc/profile

2、安装Hadoop

（1）下载Hadoop安装包：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

（2）解压安装包：tar -zxvf hadoop-2.7.3.tar.gz

（3）设置环境变量：编辑profile文件，添加以下内容

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin

（4）使配置生效：source /etc/profile

hadoop伪分布式搭建全过程，Hadoop伪分布式环境搭建全攻略，轻松实现大数据处理入门

图片来源于网络，如有侵权联系删除

3、配置Hadoop

（1）进入Hadoop安装目录：cd /usr/local/hadoop/hadoop-2.7.3

（2）修改配置文件：编辑hadoop-env.sh，设置JDK路径

export JAVA_HOME=/usr/local/java/jdk1.8.0_231

（3）修改配置文件：编辑core-site.xml，设置Hadoop运行的主机名

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/tmp</value>
  </property>
</configuration>

（4）修改配置文件：编辑hdfs-site.xml，设置HDFS的副本数量和存储路径

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value>
  </property>
</configuration>

（5）修改配置文件：编辑mapred-site.xml，设置MapReduce运行的主机名

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

（6）修改配置文件：编辑yarn-site.xml，设置YARN的运行参数

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hosts</name>
    <value>localhost</value>
  </property>
</configuration>

4、格式化HDFS

进入Hadoop安装目录，执行以下命令格式化HDFS

hadoop namenode -format

5、启动Hadoop服务

（1）启动NameNode

start-dfs.sh

（2）启动Secondary NameNode

hadoop伪分布式搭建全过程，Hadoop伪分布式环境搭建全攻略，轻松实现大数据处理入门

图片来源于网络，如有侵权联系删除

start-SecondaryNameNode.sh

（3）启动ResourceManager

start-yarn.sh

（4）启动NodeManager

yarn-daemon.sh start nodemanager

验证环境

1、查看NameNode状态

jps

出现NameNode进程，表示NameNode已启动。

2、查看ResourceManager状态

jps

出现ResourceManager进程，表示ResourceManager已启动。

3、测试HDFS文件系统

hdfs dfs -put /etc/passwd /user/hadoop/passwd
hdfs dfs -ls /

出现 passwd 文件，表示HDFS文件系统已正常工作。

通过以上步骤，您已经成功搭建了Hadoop伪分布式环境，您可以开始学习Hadoop的各项功能，如MapReduce、Hive、HBase等，逐步掌握大数据处理技能，祝您学习愉快！

标签： #hadoop伪分布式环境搭建步骤