本文目录导读:
《Hadoop伪分布式集群搭建全流程》
环境准备
1、操作系统
- 选择合适的Linux发行版,如Ubuntu或CentOS,这里以CentOS 7为例,确保系统已经安装并更新到最新版本。
2、Java环境安装
- Hadoop运行需要Java环境,首先检查系统是否已经安装Java,如果没有,可以通过以下命令安装OpenJDK:
- 在CentOS上,执行yum install -y java - 1.8.0 - openjdk - devel
。
- 安装完成后,设置Java环境变量,编辑/etc/profile
文件,添加以下内容:
export JAVA_HOME = /usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.xxx
(xxx为具体版本号)
export PATH = $PATH:$JAVA_HOME/bin
- 执行source /etc/profile
使环境变量生效。
Hadoop安装
1、下载Hadoop
- 从Hadoop官方网站(https://hadoop.apache.org/releases.html)下载适合的Hadoop版本,下载hadoop - 3.3.0版本。
- 将下载的压缩包解压到指定目录,如/usr/local/hadoop
,可以使用以下命令:
tar -zxvf hadoop - 3.3.0.tar.gz -C /usr/local/
mv /usr/local/hadoop - 3.3.0 /usr/local/hadoop
2、配置Hadoop环境变量
- 编辑/etc/profile
文件,添加以下内容:
export HADOOP_HOME = /usr/local/hadoop
export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 执行source /etc/profile
使环境变量生效。
Hadoop伪分布式配置
1、核心配置文件(core - site.xml)
- 进入$HADOOP_HOME/etc/hadoop
目录,编辑core - site.xml
文件。
- 添加以下配置:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
- 这个配置指定了Hadoop的默认文件系统为HDFS,并且设置了NameNode运行在本地的9000端口。
2、HDFS配置文件(hdfs - site.xml)
- 在$HADOOP_HOME/etc/hadoop
目录下编辑hdfs - site.xml
文件。
- 添加如下配置:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hdfs/datanode</value>
</property>
</configuration>
```
- 这里dfs.replication
设置为1,因为是伪分布式环境,同时指定了NameNode和DataNode的数据存储目录。
3、MapReduce配置文件(mapred - site.xml)
- 从mapred - site.xml.template
复制一份为mapred - site.xml
。
- 编辑mapred - site.xml
,添加以下配置:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- 这表示MapReduce任务将运行在YARN上。
4、YARN配置文件(yarn - site.xml)
- 在$HADOOP_HOME/etc/hadoop
目录下编辑yarn - site.xml
文件。
- 添加以下配置:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
- 这里指定了YARN的相关服务和资源管理器运行在本地主机。
格式化HDFS
1、执行hdfs namenode - format
命令。
- 这个命令会初始化HDFS文件系统,创建NameNode的元数据存储目录等操作,如果格式化成功,会看到类似“Formatting using clusterid: CID - xxx”的信息。
启动Hadoop服务
1、启动HDFS
- 执行start - dfs.sh
命令,可以通过jps
命令查看启动的进程,应该能看到NameNode和DataNode进程。
2、启动YARN
- 执行start - yarn.sh
命令,再次使用jps
命令查看,会看到ResourceManager和NodeManager进程。
验证Hadoop伪分布式集群
1、HDFS验证
- 通过浏览器访问http://localhost:9870
(Hadoop 3.x版本中HDFS的Web界面端口),可以查看HDFS的文件系统信息,如文件块信息、存储使用情况等。
2、YARN验证
- 访问http://localhost:8088
(YARN的Web界面端口),可以查看正在运行的MapReduce任务、资源使用情况等信息。
通过以上步骤,就成功搭建了Hadoop伪分布式集群,可以在这个环境下进行大数据相关的开发和测试工作,如运行MapReduce程序、使用Hive等数据仓库工具等。
评论列表