虚拟机下hadoop1.1.2安装(单机版)与(集群版)

时间:2023-03-09 09:52:53
虚拟机下hadoop1.1.2安装(单机版)与(集群版)

(1)我的电脑环境

CentOS6.5,64位,在虚拟机下实现。

(2)jdk1.6的安装

jdk我用的是1.6.0_27,自己在网上下载jdk-6u27-linux-x64.zip

先在/usr/local/下新建名为java的文件夹

下载链接:http://download.csdn.net/detail/tiney/3678995

下载好了之后,将该文件先通过u盘拷贝到桌面,然后从桌面复制到java中

命令:cp  /home/桌面/Jdk-6u27-linux-x64.bin /usr/local/java/

(复制不过去,就切换到root下进行)su  root

然后就是进入该解压文件的路径下解压文件  tar zxvf  jdk-6u27-linux-x64.zip

然后就是执行安装即可,Jdk-6u27-linux-x64.bin。

命令:./ Jdk-6u27-linux-x64.bin

自动完成

设置环境变量

vi /etc/profile

export JAVA_HOME=/usr/local/java/jdk1.6.0_27

export PATH=.:$JAVA_HOME/bin:$PATH

输入 source /etc/profile使配置文件生效。

检查jdk是否安装配置成功,java -version,若显示如下,表示安装成功。

[root@Hadoop0 ~]# java –version

Java version “1.6.0_27”

(以上内容表示JDK就安装好了)

安装jdk过程中出现的问题

系统自带了jdk,应该先将其删掉

比如,此图在网上截取得到(图片不影响我要表达的内容)

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

输入方框中的命令,发现系统自带有jdk,这个时候,应该讲横线箭头处的四个文件全部删掉

注意删除的命令:(很重要,花了我好久才搞懂)

rpm -e --nodeps java-1.6.0-openjdk

(不能写rpm -e –nodeps

java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.e16_3.x86_64 )反正不能写的这么全面,

否则删不掉了,然后删除后面三个,以此类推,千万不能写全

这样自带的jdk就删掉了,删掉之后,就很好做了,然后按照文章里面写的,然后终于把自己的jdk装上了

接下来就是安装hadoop了

切记一条:首先要创建一个hadoop用户,搭建集群的话,几台电脑,最好是在同一个用户进行

命令:useradd hadoop  #表示创建一个名为hadoop的用户

命令:passwd hadoop #表示要给hadoop的用户创建密码

(这里我给的密码都是KATOA2015,因为实验室的名称是KATOA)

接下来的工作,都先切换到hadoop用户下进行

命令:su hadoop

如果切换不过来的话,先进入root,然后再进hadoop用户即可

命令:su root

先在/usr/local/下创建hadoop文件夹

命令:mkdir /usr/local/hadoop

然后将hadoop的压缩包复制到hadoop文件夹里面,命令同上

(如果复制不过来的话,就换到root下面,弄完之后记得切换到hadoop用户,或者给haodop用户root权限也可以,这里的授权的命令自己百度去)

接下来,配置SSH 免密码登陆

  1. 查看当前用户下(hadoop)是否有.ssh的隐藏文件

命令:cd ~/.ssh  #查看有没有.ssh的文件

如果没有,就新建一个

命令:mkdir ~/.ssh

  1. 输入ssh-keygen -t rsa

这个命令会在.ssh文件夹下生成id_dsa和id_ds.pub两个文件,这私钥和公钥。

(这里,注意一点,输入完ssh-keygen –t rsa之后,接下来直接按enter,不管它要你输入什么,都直接输入enter就可以了,不然会出错,我的一点经验之谈,直到enter出一个黑框框里面乱七八糟的,卡不懂的,那个就是秘钥 ,就可以了,再进行3)

3.输入cp id_rsa.pub authorized_keys

这条命令是把公钥加到用于认证的公钥文件中

4.验证SSH是否安装成功,以及是否可以免密码登陆本机

ssh localhost

如果显示如下,表示安装成功

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

修改主机名

为了方便,这里我把主机名改为hadoop0;

(从机给的是hadoop2,,hadoop3)

输入:hostname可以显示当前主机名;

输入:vi /etc/sysconfig/network修改HOSTNAME,如下,保存并退出

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

(编辑模式下,按一下esc,然后输入:wq 再enter,就可以保存修改并退出了,:x!是强制保存修改并退出,有时会用到)

将hostname与ip地址绑定

这个时候,如果直接ping hadoop0,那么是不成功的,因为hadoop0没有和本机地址绑定;

输入:vi /etc/hosts,增加一行:

10.109.0.49 hadoop0

这里10.109.0.49是我本机的Ip地址,之后再ping hadoop0就成功了。

(我在服务器上装虚拟机弄的,这里学校给我们实验室弄了个专用ip)  (ifconfig可以查看电脑ip)

安装并运行Hadoop

下载并将hadoop-1.1.2.tar.gz解压到当前用户目录下(/usr/local/hadoop)。

tar -zxvf hadoop-1.1.2.tar.gz。

采用伪分布式hadoop配置

进入hadoop文件夹下的conf夹,修改配置文件。

1.指定jdk安装位置:

Hadoop-env.sh:

export JAVA_HOME=/usr/local/java/jdk1.6.0_27

2.hadoop核心配置文件,配置HDFS地址和段口号。

core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop0:9000</value>
</property>
< /configuration>

注意:这里hadoop是你的电脑主机名,根据自己的主机名来修改。

3.hdfs-site.xml,默认的配置方式是3,在单机版的hadoop中,将其改为1

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
< /configuration>

4.配置MapReduce文件,配置JobTracker的地址和端口

mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>Hadoop0:9001</value>
</property>
< /configuration>

注意:这里hadoop是你的电脑主机名,根据自己的主机名来修改。

5.接下来,在启动hadoop前,需要格式化hadoop的HDFS。进入hadoop文件夹,

输入bin/hadoop namenode -format

格式化文件系统,接下来启动hadoop

输入命令,启动所有进程:

bin/start-all.sh

可以通过jps命令来查看运行的进程,如果成功运行,那么将会有5个进程运行,如下图:

分别是:JobTracker、secondaryNameNode、TaskTracker、NameNode和DataNode。

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

最后验证hadoop是否安装成功。

打开浏览器,分别输入网址:

localhost:50030(mapreduce的web页面)

localhost:50070(HDFS的web页面)

如果想在windows下访问这两个网址,那么就需要关闭CentOS的防火墙,否则访问不了。

命令:service iptables stop

使用:chkconfig iptables off,可以关闭防火墙的自动运行

这样,单机版的hadoop就可以搭建成功了

然后就是在单机版的基础上,搭建集群了

Hadoop集群环境的搭建和单机版的搭建差不多,就是多了一些文件的配置操作。

3台主机的hostname修改和IP地址绑定

接下来的操作还是在hadoop用户下进行,如果不行的话,就给hadoop用户root权限,或者转到root下,不过马上得转到hadoop下

我在虚拟机下安装了3个centos6.5系统,其IP地址和主机名分别如下:

10.109.0.49 Hadoop0

10.109.0.54 Hadoop2

10.109.0.55 Hadoop3

IP地址与hostname绑定

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

在Hadoop0主机下操作类似,将HOSTNAME修改为Hadoop0;在Hadoop2主机下操作类似,将HOSTNAME修改为hadoop2。在Hadoop3主机下操作类似,将HOSTNAME修改为hadoop3。

在Hadoop0主机下:

输入:vi /etc/hosts,在hosts下添加如下内容:

10.109.0.49 Hadoop0

10.109.0.54 Hadoop2

10.109.0.55 Hadoop3

然后通过scp命令,将修改好的hosts复制到Hadoop2和Hadoop3的/etc/hosts文件夹下覆盖:

scp  /etc/hosts  hadoop@Hadoop2:/etc/hosts
scp  /etc/hosts  hadoop@Hadoop3:/etc/hosts

(注意,这个地方,scp是复制文件的命令,我的理解是,超级复制的意思,至于能不能用来复试文件夹,还不清楚,hadoop是当前用户,@后面的是主机名)

测试3太主机之间是否能Ping通

在3台主机下分别输入:

ping Hadoop0
ping Hadoop2
ping Hadoop3

如果3太主机都能ping通,那说明前面的配置成功。

Ping三台主机对应的ip也是一样子的(centos下区分大小写)

ping 10.109.0.49

ping 10.109.0.55

ping 10.109.0.54

SSH免密码登陆(这是之前单机版的工作,单机版做了,就不用管了)

在hadoop主机下:

1.查看当前用户下(root)是否有.ssh的隐藏文件,如果没有就创建一个

mkdir .ssh

2.输入ssh-keygen -t rsa

这个命令会在.ssh文件夹下生成id_dsa和id_ds.pub两个文件,这私钥和公钥。

3.输入

cp id_rsa.pub authorized_keys

这条命令是把公钥加到用于认证的公钥文件中

4.验证SSH是否安装成功,以及是否可以免密码登陆本机

ssh localhost

如果显示如下,表示安装成功

(请参阅此步骤的上图)

5.将authorized_keys复制到hadoop2和hadoop3下的.ssh文件,这样就可以免密码登陆hadoop2和hadoop3了。

scp authorized_keys hadoop@Hadoop2:.ssh/
scp authorized_keys hadoop@Hadoop3:.ssh/

(这里,hadoop@Hadoop2,hadoop是当前用户,要在hadoop用户下搭建集群,网上也有说可以不在hadoop用户下,但是对于小白而言,还是乖乖乖滴都在hadoop用户搭建吧,Hadoop2是主机名)

6.测试

在hadoop主机下输入:

ssh Hadoop2

ssh Hadoop3

在第一次登陆是需要密码,以后则不要。到此,ssh的免密码登陆完成。

安装jdk1.6

集群jdk的配置同单机的,单机版的jdk配好了的话,这里就不用配置了

设置环境变量

环境变量的配置同单机的,单机版的环境变量配好了的话,这里就不用配置了

配置hadoop

在Hadoop0主机下:

进入hadoop文件夹下的conf夹,修改配置文件。

1.指定jdk安装位置:

Hadoop-env.sh:

export JAVA_HOME=/usr/local/java/jdk1.6.0_27

2.hadoop核心配置文件,配置HDFS地址和段口号。

core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://Hadoop0:9000</value>(hadoop依据主机名来写,我的主机名是Hadoop0)
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

3.hdfs-site.xml,默认的配置方式是3,这里因为我们搭建的是3个集群,所以给的是3

hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
</configuration>

4.配置MapReduce文件,配置JobTracker的地址和端口

mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>Hadoop0:9001</value>(hadoop是依据主机名来写,我的主机名是Hadoop0)
</property>
</configuration>

5‘修改masters文件

hadoop

6.修改slaves文件

Hadoop2
hadoop3

然后将hadoop文件夹复制到另外2台主机。

scp /uer/local/hadoop hadoop@Hadoop2:/etc/local/
scp /uer/local/hadoop hadoop@Hadoop3:/etc/local/

(如果复制不过来,就一个一个地配置,做重复工作而已)

接下来要修改环境变量:

vi /etc/profile

export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

同样,将profile复制到另外两台主机上,操作见三(2)。

(3)启动hadoop

在hadoop下:

输入:

hadoop namenode -format

然后通过start-all.sh启动所有进程:

start-all.sh

可以通过jps命令来查看运行的进程,如果成功运行,那么将会有5个进程运行,如下图:
在Hadoop0 下:

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

在Hadoop2下:

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

在Hadoop2下:

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

至此,hadoop集群启动成功,要想看集群状态,可以打开下面两个网址:

localhost:50030(mapreduce的web页面)

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

localhost:50070(HDFS的web页面)

虚拟机下hadoop1.1.2安装(单机版)与(集群版)

如果想在windows下访问这两个网址,那么就需要关闭CentOS的防火墙,否则访问不了。(3台主机都要关闭防火墙)

命令:service iptables stop

使用:chkconfig iptables off,可以关闭防火墙的自动运行

有不清楚的地方,请联系笔者。Q:718364491