本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的分布式计算框架,已成为处理海量数据的重要工具,本文将详细介绍如何在虚拟机环境下安装Hadoop分布式文件系统(HDFS),帮助您快速上手Hadoop。
图片来源于网络,如有侵权联系删除
准备工作
1、硬件环境:虚拟机环境,建议内存至少2GB,CPU至少2核。
2、操作系统:Linux操作系统,如CentOS 7、Ubuntu 18.04等。
3、软件环境:
- JDK 1.8及以上版本
- SSH工具,用于远程连接虚拟机
安装步骤
1、配置网络
(1)进入虚拟机,修改网络配置文件:vi /etc/sysconfig/network-scripts/ifcfg-ens33
(以CentOS 7为例,ens33为虚拟网卡名称)
(2)将ONBOOT设置为yes,并设置IP地址、网关、DNS等信息。
(3)重启网络服务:systemctl restart network
2、安装JDK
(1)下载JDK安装包:前往Oracle官网下载JDK 1.8及以上版本的安装包。
(2)解压安装包:tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local/
(3)设置环境变量:vi /etc/profile
(4)添加以下内容:
```
export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
```
(5)使环境变量生效:source /etc/profile
3、安装SSH
(1)安装SSH服务:yum install openssh-server
(2)启动SSH服务:systemctl start sshd
(3)设置SSH服务开机自启:systemctl enable sshd
4、下载Hadoop
(1)前往Apache Hadoop官网下载最新版本的Hadoop安装包。
(2)解压安装包:tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local/
5、配置Hadoop
(1)进入Hadoop配置目录:cd /usr/local/hadoop-3.3.4
(2)修改Hadoop配置文件:
a. 修改hadoop-env.sh
,设置JDK路径:export JAVA_HOME=/usr/local/jdk1.8.0_231
b. 修改core-site.xml
,配置HDFS存储路径:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.3.4/tmp</value>
</property>
图片来源于网络,如有侵权联系删除
</configuration>
```
c. 修改hdfs-site.xml
,配置HDFS副本数量:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
```
d. 修改mapred-site.xml
,配置MapReduce运行模式:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
e. 修改yarn-site.xml
,配置YARN运行模式:
```xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
f. 修改slaves
文件,配置从节点主机名:
```
slave1
slave2
```
(3)初始化HDFS:
```
sbin/hadoop namenode -format
图片来源于网络,如有侵权联系删除
```
6、启动Hadoop
(1)启动NameNode:
```
sbin/hadoop-daemon.sh start namenode
```
(2)启动DataNode:
```
sbin/hadoop-daemon.sh start datanode
```
(3)启动SecondaryNameNode:
```
sbin/hadoop-daemon.sh start secondarynamenode
```
(4)启动YARN资源管理器:
```
sbin/yarn-daemon.sh start resourcemanager
```
(5)启动YARN节点管理器:
```
sbin/yarn-daemon.sh start nodemanager
```
验证安装
1、进入HDFS文件系统:
```
bin/hdfs dfs -ls /
```
2、启动Hadoop命令行界面:
```
bin/hadoop fs -ls /
```
3、创建HDFS文件:
```
bin/hadoop fs -put /etc/passwd /hdfsfile
```
4、查看文件:
```
bin/hadoop fs -cat /hdfsfile/passwd
```
至此,Hadoop分布式文件系统(HDFS)在虚拟机环境下安装成功,您可以开始使用Hadoop处理海量数据了。
标签: #虚拟机安装hadoop
评论列表