本文目录导读:
《Hadoop安装与伪分布式集群搭建全攻略》
环境准备
1、操作系统选择
- 建议选择Linux系统,如Ubuntu或CentOS,这里以CentOS 7为例进行讲解。
2、安装Java环境
图片来源于网络,如有侵权联系删除
- 首先检查系统是否已经安装Java,使用命令java -version
,如果没有安装,需要下载JDK(Java Development Kit)。
- 可以从Oracle官网下载适合CentOS的JDK版本,例如JDK 8,下载完成后,使用命令rpm -ivh jdk - 8uXXX - linux - x64.rpm
(XXX为具体版本号)进行安装。
- 安装完成后,配置Java环境变量,编辑/etc/profile
文件,在文件末尾添加以下内容:
```bash
export JAVA_HOME=/usr/java/jdk1.8.0_XXX(根据实际安装路径)
export PATH=$PATH:$JAVA_HOME/bin
```
- 使环境变量生效,执行命令source /etc/profile
。
Hadoop安装
1、下载Hadoop
- 从Hadoop官方网站(https://hadoop.apache.org/releases.html)下载稳定版本的Hadoop,例如Hadoop 3.x版本。
- 使用命令wget https://archive.apache.org/dist/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz
(以Hadoop 3.3.0为例)进行下载。
2、解压Hadoop
- 下载完成后,使用命令tar -zxvf hadoop - 3.3.0.tar.gz
将Hadoop解压到指定目录,例如/usr/local
目录下,可以使用命令mv hadoop - 3.3.0 /usr/local/hadoop
将解压后的文件夹移动到/usr/local
下。
3、配置Hadoop环境变量
- 编辑/etc/profile
文件,添加以下内容:
```bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 执行命令source /etc/profile
使环境变量生效。
伪分布式集群搭建
1、配置核心文件(core - site.xml)
- 在$HADOOP_HOME/etc/hadoop
目录下找到core - site.xml
文件,编辑该文件,添加以下配置:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
图片来源于网络,如有侵权联系删除
- 这里将Hadoop的默认文件系统设置为HDFS(Hadoop Distributed File System),并指定了本地主机(localhost)和端口(9000)。
2、配置HDFS文件(hdfs - site.xml)
- 在同一目录下找到hdfs - site.xml
文件,编辑如下:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hadoop_data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/hadoop_data/datanode</value>
</property>
</configuration>
```
- 这里设置了数据块的副本数为1(因为是伪分布式),并指定了NameNode和DataNode的数据存储目录。
3、配置MapReduce文件(mapred - site.xml)
- 复制mapred - site.xml.template
文件为mapred - site.xml
,然后编辑:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
图片来源于网络,如有侵权联系删除
- 将MapReduce的框架名称设置为YARN。
4、配置YARN文件(yarn - site.xml)
- 编辑yarn - site.xml
文件:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
- 这里设置了YARN的相关服务和资源管理器的主机名。
启动与测试
1、格式化NameNode
- 在第一次启动Hadoop之前,需要格式化NameNode,使用命令hdfs namenode - format
。
2、启动Hadoop服务
- 启动HDFS:执行命令start - dfs.sh
。
- 启动YARN:执行命令start - yarn.sh
。
3、测试Hadoop运行
- 可以通过访问Hadoop的Web界面来检查服务是否正常运行。
- 对于HDFS,访问http://localhost:9870
(Hadoop 3.x版本,之前版本可能是50070),可以查看NameNode的状态信息,如文件系统的容量、使用情况等。
- 对于YARN,访问http://localhost:8088
,可以查看集群中的资源使用情况、正在运行的作业等信息。
4、运行示例作业
- 可以运行Hadoop自带的示例作业来进一步测试集群的功能,运行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar wordcount /input /output
(假设已经创建了/input
目录并放入了一些测试文件,/output
是输出目录),这个作业会统计输入文件中的单词数量,并将结果输出到/output
目录下。
通过以上步骤,就可以在CentOS系统上完成Hadoop的安装与伪分布式集群的搭建,并进行基本的测试和作业运行,在实际操作过程中,可能会遇到一些权限问题或者网络配置问题,需要根据具体情况进行调整。
评论列表