黑狐家游戏

hadoop伪分布式搭建全过程,Hadoop伪分布式环境搭建全攻略,轻松实现大数据处理入门

欧气 0 0

本文目录导读:

  1. 环境准备
  2. 安装步骤
  3. 验证环境

随着大数据时代的到来,Hadoop作为一款开源的分布式计算框架,已经成为处理大规模数据集的利器,本文将详细讲解Hadoop伪分布式环境搭建的全过程,帮助您轻松入门大数据处理。

环境准备

1、操作系统:Linux(推荐CentOS 7)

hadoop伪分布式搭建全过程,Hadoop伪分布式环境搭建全攻略,轻松实现大数据处理入门

图片来源于网络,如有侵权联系删除

2、JDK:Java Development Kit(推荐1.8)

3、Hadoop:Hadoop-2.7.3(或更高版本)

安装步骤

1、安装JDK

(1)下载JDK安装包:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

(2)解压安装包:tar -zxvf jdk-8u231-linux-x64.tar.gz

(3)设置环境变量:编辑profile文件,添加以下内容

export JAVA_HOME=/usr/local/java/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

(4)使配置生效:source /etc/profile

2、安装Hadoop

(1)下载Hadoop安装包:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

(2)解压安装包:tar -zxvf hadoop-2.7.3.tar.gz

(3)设置环境变量:编辑profile文件,添加以下内容

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin

(4)使配置生效:source /etc/profile

hadoop伪分布式搭建全过程,Hadoop伪分布式环境搭建全攻略,轻松实现大数据处理入门

图片来源于网络,如有侵权联系删除

3、配置Hadoop

(1)进入Hadoop安装目录:cd /usr/local/hadoop/hadoop-2.7.3

(2)修改配置文件:编辑hadoop-env.sh,设置JDK路径

export JAVA_HOME=/usr/local/java/jdk1.8.0_231

(3)修改配置文件:编辑core-site.xml,设置Hadoop运行的主机名

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/tmp</value>
  </property>
</configuration>

(4)修改配置文件:编辑hdfs-site.xml,设置HDFS的副本数量和存储路径

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value>
  </property>
</configuration>

(5)修改配置文件:编辑mapred-site.xml,设置MapReduce运行的主机名

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

(6)修改配置文件:编辑yarn-site.xml,设置YARN的运行参数

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hosts</name>
    <value>localhost</value>
  </property>
</configuration>

4、格式化HDFS

进入Hadoop安装目录,执行以下命令格式化HDFS

hadoop namenode -format

5、启动Hadoop服务

(1)启动NameNode

start-dfs.sh

(2)启动Secondary NameNode

hadoop伪分布式搭建全过程,Hadoop伪分布式环境搭建全攻略,轻松实现大数据处理入门

图片来源于网络,如有侵权联系删除

start-SecondaryNameNode.sh

(3)启动ResourceManager

start-yarn.sh

(4)启动NodeManager

yarn-daemon.sh start nodemanager

验证环境

1、查看NameNode状态

jps

出现NameNode进程,表示NameNode已启动。

2、查看ResourceManager状态

jps

出现ResourceManager进程,表示ResourceManager已启动。

3、测试HDFS文件系统

hdfs dfs -put /etc/passwd /user/hadoop/passwd
hdfs dfs -ls /

出现 passwd 文件,表示HDFS文件系统已正常工作。

通过以上步骤,您已经成功搭建了Hadoop伪分布式环境,您可以开始学习Hadoop的各项功能,如MapReduce、Hive、HBase等,逐步掌握大数据处理技能,祝您学习愉快!

标签: #hadoop伪分布式环境搭建步骤

黑狐家游戏
  • 评论列表

留言评论