虚拟机模拟分布式结构的安装步骤和安装方法

文章目录

hadoop的安装

本次安装是构建在之前安装完jdk以及mysql的基础上，假若其他同学们想了解的可以查看下之前的安装步骤，这儿是传送门

本次安装使用MobaXterm辅助工具，先把对应的hadoop压缩包上传到root/software文件夹内备用

1、解压hadoop免安装压缩包

步入root/software文件夹内后，输入解压命令

tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz

执行如下：

2、修改文件夹名称

为了前面便捷，先把hadoop的文件名更改的短一点，这一步不重要，个人习惯问题，可以忽视不做。

mv hadoop-2.6.0-cdh5.14.2.tar.gz hadoop

3、删除压缩包文件

解压缩后，原文件就没有用了，建议直接删掉

rm -f hadoop-2.6.0-cdh5.14.2.tar.gz

4、准备配置环境

linux配置环境变量的文件_linux环境变量格式_linux环境变量文件配置文件

步入刚才更改名称的hadoop文件夹内，之后在etc目录下还有一个hadoop，步入后打算配置环境

cd hadoop/etc/hadoop

配置环境1、配置hadoop-env.sh文件关联java

步入hadoop-env.sh文件内后步入编辑模式，将原路径注释后，新增JAVA_HOME的实际路径，

vi hadoop-env.sh

由于个别缘由，原JAVA_HOME难以使用，须要注释掉后，自动降低一个新的路径：

exportJAVA_HOME=/root/software/jdk1.8.0_221

假如记不清楚JAVA_HOME的路径，可以退出后，输入：

echo $JAVA_HOME

查看JAVA_HOME的实际路径

2、配置core-site.xml文件，配置核心

步入core-site.xml文件

vi core-site.xml

在最后面上面输入后保存退出：

<property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop102:9000
</property>
<property>
   <name>hadoop.tmp.dir</name>
   <value>/root/software/hadoop/tmp</value>
</property>
<property>
   <name>hadoop.proxyuser.root.hosts</name>
   <value>*</value>
 </property>
<property>
   <name>hadoop.proxyuser.root.groups</name>
   <value>*</value>
 </property>

红框标明的地方，hadoop为原本虚拟机的hostname，第二个value上面是实际的安装地址内新建一个tmp文件夹，前面两个直接复制粘贴就好

3、配置hdfs-site.xml配置类型

步入hdfs-site.xml文件

vi hdfs-site.xml

由于这儿是用多个虚拟机模拟分布式结构，也就是伪分布式linux环境变量文件配置文件，所以这个设置节点为1

后期须要的情况下再添加全分布式以及其他

同样在最后面上面输入后保存退出：

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

4、配置mapred-site.xml.template文件

步入mapred-site.xml.template文件

vi mapred-site.xml.template

同样在最后面上面输入后保存退出：

<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

5、配置viyarn-site.xml文件

步入yarn-site.xml文件

vi yarn-site.xml

同样在最后面上面输入后保存退出：

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop102</value>
</property>

标红的位置填写本机的hostname

6、配置hadoop环境变量

步入etc/profile目录下的文件内

vi /etc/profile

在最后的位置新增

export HADOOP_HOME=/root/software/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

其中，第一行为hadoop的安装目录，按照自己实际情况填写linux环境变量文件配置文件，最后一行是在原有基础上降低HADOOPHOME/bin:HADOOP_HOME/bin:HADOOPHOME/bin:HADOOP_HOME/sbin的路径，之后保存退出：

7、让环境变量生效

输入命令让新配置的环境变量生效

source /etc/profile

8、进行初始化

输入命令：

hadoop namenode -format

见到successfully和status0则表示初始化成功中标麒麟linux，之前的配置没有问题

9、启动服务

先输入

cd ../..

退回hadoop主路径

之后输入

start-all.sh

来启动服务linux软件下载，start-all.sh相当于start-dfs.sh加上start-yarn.sh

输入两次yes后启动完成，可以输入jps来查看服务是否启动成功

这儿可以看见，主要有这6个服务项则表示启动成功

10、测试

同时可以通过本机的浏览器，地址栏输入：

IP地址:50070

这儿就看一更直观的查看Hadoop的分布式文件系统中的文件

11、上传测试：

输入命令：

hdfs dfs -put READ.txt /test

将文件READ.txt上传到test文件夹

之后输入命令进行估算（对READ.txt文件进行wordcount计数）：

hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar wordcount /test/READ.txt /output
`![在这里插入图片描述](https://img-blog.csdnimg.cn/20210313215102699.png)
``
运行成功后输入命令
```sql
hdfs dfs -cat /output/part-r-00000

可以查看到统计的各个词组的数目

也可以登入浏览器进行查看结果：

IP地址:8088

本作品采用知识共享署名 4.0 国际许可协议进行许可