apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

时间:2024-01-17 11:44:08

1 软件环境:

VMware8.0

Ubuntu-12.10-desktop-i386

jdk-7u40-linux-i586.tar.gz

hadoop-1.2.1.tar.gz

eclipse-dsl-juno-SR1-linux-gtk.tar.gz

hadoop-eclipse-plugin-1.2.1.jar

apache-maven-2.2.1-bin.tar.gz

hbase-0.94.11.tar.gz

hive-0.10.0.tar.gz

mahout-distribution-0.8.tar.gz

apache-tomcat-7.0.42.tar.gz

apache-nutch-1.2-bin.tar.gz

solr-4.4.0.tgz

2 角色配置:

master节点:master

slave节点:slave01

3 Hadoop完全分布式集群配置

3.1 下载安装JDK

3.1.1 下载jdk-7u40-linux-i586.tar.gz

3.1.2 在/usr/下新建文件夹java

$cd /usr

$sudo mkdir java

3.1.3 解压jdk-7u40-linux-i586.tar.gz在java文件夹下

3.1.4 配置环境变量

$sudo gedit /etc/profile  //在最后加入

export JAVA_HOME=/usr/java/jdk1.7.0_40

export JRE_HOME=/usr/java/jdk1.7.0_40/jre

exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

exportCLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JRE_HOME/lib

source /etc/profile //使环境变量生效

3.1.5 修改系统默认的jdk

$sudo update-alternatives --install/usr/bin/java java /usr/java/jdk1.7.0_40/bin/java 300

$sudo update-alternatives --install/usr/bin/javac javac /usr/java/jdk1.7.0_40/bin/javac 300

$sudoupdate-alternatives --config java

$sudoupdate-alternatives --config javac

3.1.6 检查安装是否成功

$java-version

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

3.2 SSH安装及设置

通过ssh安全协议master与slaves之间进行通信,实现hadoop完全分布式部署。

3.2.1 ifconfig 查看主机ip:

这里:

master:10.10.20.103

slave01:10.10.20.101

3.2.2在hosts文件中加上集群中所有机器的IP地址及其对应的主机名

在namenode(这里为master)上:$ sudo gedit /etc/hosts

127.0.0.1             localhost

10.10.20.103      master

10.10.20.101    slave01

3.2.3 ping测试

每台机器互ping ip地址和主机名,看是否可以ping通。

3.2.4 安装设置ssh(说明:每台电脑上都要安装ssh)

3.2.4.1在namenode(master)上:

$ sudo apt-get install ssh //安装ssh(这步在每台电脑上都要执行!)

$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa//生成密钥(这里密码为空) 文件如:id_dsa  id_dsa.pub

$cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys    //加入受信列表

$ ssh localhost 或者 ssh master  //第一次需输入"yes",成功就能无密码访问 这个是进行的本地测试

3.2.4.2把master上的id_dsa.pub 文件追加到slave01的authorized_keys 内:

拷贝master的id_dsa.pub文件到slave01:

$ scp id_dsa.pub hadoop@slave01:/home/hadoop/Desktop

//如果拷贝到其它目录下,可能会出现permission denied错误,如拷贝到home下,这是因为其它用户没有写权限

3.2.4.3在datanode(这里为slave01)上:

进入/home/hadoop/Desktop目录执行:

$ cat id_dsa.pub >> .ssh/authorized_keys

//可以在master上不输入密码直接访问slave01

说明:1、若要实现datanode无密码访问namenode,只需按照上面的步骤将datanode的*.pub文件复制到namenode上,并追加到authorized_keys中

3.3安装hadoop

注意:由于Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。

我的为:/usr/hadoop/

3.3.1在namenode上

cd  /usr/hadoop

tar -xzvf hadoop-1.2.1.tar.gz //将压缩包解压到/usr/hadoop/hadoop-1.2.1

配置hadoop-1.2.1/conf 下的 hadoop-env.sh文件将                      # exportJAVA_HOME=/usr/lib/j2sdk1.5-sun 改为:exportJAVA_HOME=/usr/java/jdk1.7.0_40

配置hadoop-1.2.1/conf下的slaves文件,一行一个DataNode,格式为:        用户名@hostip  slave01@slave01 //必须这样写

修改masters文件内容为: master  //也可以是namenode的ip,由于在/etc/hosts中设置了matraxa与ip的对应,可以写为master

配置hadoop-1.2.1/conf下的三个xml文件

修 改 core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>

修改 mapred-site.xml

<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>

修改hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>   
<name>hadoop.tmp.dir</name>   
<value>/usr/hadoop/hadoop_tmp_dir/</value>   
</property>

<property>  
 <name>dfs.permissions</name>  
  <value>false</value>  
</property>

g)进入/usr/hadoop/hadoop-1.2.1

bin/hadoop namenode -format //必需初始化  只需要初始化namenode

h)bin/start-all.sh  //启动namdnode

3.3.2在datanode(这里为slave01)上:

注意:由于Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。

我的为:/usr/hadoop/

a)       在slave01机器上建立了一个录:/usr/hadoop。

将master机器上/usr/hadoop /hadoop-1.2.1文件夹拷贝到slave机器上的/usr/hadoop/                                                      命令为:scp -r /usr/hadoop /hadoop-1.2.1 slave01@10.10.20.101:/usr/hadoop/

/etc/hosts和namenode的一样  //参照3.1.2

3.3.3、启动Hadoop

a)       格式化namenode:启动之前要先格式化namenode,进入/usr/hadoop /hadoop-1.2.1目录,执行下面的命令:bin/hadoop namenode –format

启动namenode:执行命令bin/start-all.sh

停止Hadoop:执行如下命令:bin/stop-all.sh

注意:如果datanode无法启动,先检查conf/masters,conf/slaves,然后尝试删除所有节点的hadoop.tmp.dir

3.4安装eclipse

a)       下载eclipse-dsl-juno-SR1-linux-gtk.tar.gz

解压到 /usr/ 目录

进入/ usr/eclipse

命令行输入./eclipse 即可打开eclipse

3.5安装hadoop的eclipse插件

利用eclipse开发,需安装hadoop-eclipse插件。

a)       下载hadoop-eclipse-plugin-1.2.1.jar,将其复制到eclipse安装目录下的plugins目录中。

重启eclipse,配置hadoop installation directory。如果安装插件成功,打开Window-->Preferens,会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installationdirectory。配置完成后退出。

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

在Map/Reduce Locations(Eclipse界面的正下方)中新建一个Hadoop Location。在这个View中,点击鼠标右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,可任意填,如Hadoop,以及Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。我的这两个文件中配置如下:

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

设置完成后,点击Finish就应用了该设置。然后,在最左边的Project Explorer中就能看到DFS的目录,如下图所示:

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

4安装maven

a)       下载apache-maven-2.2.1-bin.tar.gz

解压在/usr/ 目录下

sudo gedit/etc/profile加入环境变量

export MAVEN_HOME=/usr/apache-maven-2.2.1

export PATH=$PATH:MAVEN_HOME/bin

mvn –version

出现如下信息即成功

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

5安装hbase

a)       解压hbase-0.94.11.tar.gz到/usr/hadoop                                解压命令:$tar zxvf hbase-0.94.11.tar.gz

b)       配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-env.sh                  用gedit打开hbase-env.sh修改

文件未尾加:

# Tell HBasewhether it should manage it's own instance of Zookeeper or not.

exportHBASE_MANAGES_ZK=true

export JAVA_HOME=/usr/java/jdk1.6.0_20

配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-site.xml

<?xmlversion="1.0"?>

<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>hbase.rootdir</name>

<value>hdfs://master:9000/hbase</value>

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>hbase.master.port</name>

<value>60000</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave01</value>

</property>

</configuration>

u hbase.rootdir设置hbase在hdfs上的目录,主机名为hdfs的namenode节点所在的主机

u hbase.cluster.distributed设置为true,表明是完全分布式的hbase集群

u hbase.master设置hbase的master主机名和端口

u hbase.zookeeper.quorum设置zookeeper的主机,官方推荐设置为3,5,7比较好,奇数。

d)      配置/usr/hadoop/hbase-0.94.11/conf下文件regionservers

slave01

e)       设置环境变量,用gedit打开/etc/profile文件在文件未尾添加:

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$PATH:$HBASE_HOME/bin

f)        在完成以上修改之后,把master上的hbase-0.94.11原样复制到slave01上,保证目录结构一致,可使用如下命令:

scp –r /usr/hadoop/hbase-0.94.11 slave01@slave01: /usr/hadoop/hbase-0.94.11

c)       启动Hbase(首先要启动hadoop)

bin/start-hbase.sh

bin/stop-hbase.sh

登陆http://master:60010,出现如下图,说明hbase分布式搭建成功。

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

u permission denied的解决方法

如果想让bin下的所有文件都可执行

则 chmod a+x bin/*

6 安装hive

Hive只需要在master主机上安装

a)      解压hive-0.10.1.gar.gz到/usr/hadoop下

b)     用gedit打开/etc/profile配置环境变量

exportHIVE_HOME=/usr/hadoop/hive-0.10.0

exportHIVE_CONF_DIR=/usr/hadoop/hive-0.10.0/conf

export PATH=$PATH:$HIVE_HOME/bin

c)      进入HIVE_HOME运行bin/hive 出现hive shell 命令行说明安装成功。

支持多用户会话,需要一个独立的元数据库,常用的是使用MySQL作为元数据库。

a)      sudoapt-get install mysql-server mysql-client安装mysql

完成后通过netstat –tap |grep mysql 来车看是否已经有了mysql服务,如下图即成功。

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

b)     为hive建立相应的mysql账号:

进入mysql: mysql –u root –p

mysql> create user 'hive'@’localhost’identified by '123';

Query OK, 0 rows affected (0.00 sec)

mysql> GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost'IDENTIFIED BY '123' WITH GRANT OPTION;

Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;

Query OK, 0rows affected (0.00 sec)

mysql> exit

Bye

如果出现新建用户denied的情况,是因为user表里面已经存在该用户。之后删除用户再并且可以附加flush privileges之后再新建。用新用户登录不进去可以尝试删除mysql的匿名用户。注意host的是localhost或者是127.0.0.1或者不填。

c)      从客户端用hive账号登陆mysql

mysql –u hive -p

d)     建立hive的元数据库

mysql>create database hive;

e)      mysql中保存了hive的元数据信息,包括表的属性、桶信息和分区信息等,以hive帐号登陆hive查看元数据信息

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

f)      配置Hive

在Hive安装目录的conf目录下,将hive-default.xml.template复制一份命名为:hive-site.xml

  修改以下内容,配置上mysql数据连接、驱动、用户名和密码

<property>

<name>hive.metastore.local</name>

<value>false</value>

</property>

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hive</value>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>123</value>

</property>

g)     把mysql的驱动包mysql-connector-java-5.1.15拷贝到Hive安装路径下的lib目录

h)     进入Hive,没报错说明安装成功

7 hive与hbase的整合(用hive读取hbase的数据)

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类, 大致意思如图所示:

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

3.8.1整合hive与hbase的过程如下:

a)         将文件/usr/hadoop/hive-0.10.0/hbase-0.94.11.jar 与/usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar拷贝到/usr/hadoop/hive-0.10.0/lib文件夹下面

注意:如果hive/lib下已经存在这两个文件的其他版本(例如zookeeper-3.3.1.jar),建议删除后使用hbase下的相关版本

b)        修改hive/conf下hive-site.xml文件,在底部添加如下内容:

<property>

<name>hive.querylog.location</name>

<value>/usr/hadoop/hive-0.10.0/logs</value>

</property>

<property>

<name>hive.aux.jars.path</name>

<value>file:///usr/hadoop/hive-0.10.0/lib/hive-hbase-handler-0.10.0.jar,file:///usr/hadoop/hive-0.10.0/lib/hbase-0.94.11.jar,file:///usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar</value>

</property>

注意:如果hive-site.xml不存在则自行创建,或者把hive-default.xml.template文件改名后使用。

c)         拷贝hbase-0.94.11.jar到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/lib下。

d)        拷贝usr/hadoop/hbase-0.94.11/conf下的hbase-site.xml文件到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/conf下。

注意,如果3,4两步跳过的话,运行hive时很可能出现如下错误:org.apache.hadoop.hbase.ZooKeeperConnectionException:HBase is able to connect to ZooKeeper but the connection closes immediately.
This could be a sign that the server has too many connections (30 is thedefault). Consider inspecting your ZK server logs for that error and
then make sure you are reusing HBaseConfiguration as often as you can. SeeHTable's javadoc for more information. at org.apache.hadoop.
hbase.zookeeper.ZooKeeperWatcher.

e)         启动hive
单节点启动
bin/hive -hiveconf hbase.master=master:60000

f)         集群启动
bin/hive

注意:如果hive-site.xml文件中没有配置hive.aux.jars.path,则可以按照如下方式启动。hive --auxpath /opt/mapr/hive/hive-0.7.1/lib/hive-hbase-handler-0.7.1.jar,/opt/mapr/hive/hive-0.7.1/lib/hbase-0.90.4.jar,/opt/mapr/hive/hive-0.7.1/lib/zookeeper-3.3.2.jar-hiveconf hbase.master=localhost:60000

3.8.2启动后进行测试

a)       创建hbase识别的表
CREATE TABLE hbase_table_1(key int, value string) STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val")TBLPROPERTIES ("hbase.table.name" = "xyz");

b)       新建hive的数据表

create tablepokes(foo int,bar string)row format delimited fields terminated by ',';

c)       批量导入数据

load data localinpath '/home/hadoop/Desktop//1.txt' overwrite into table pokes;

1.txt文件的内容为 
1,hello 
2,pear 
3,world

d)      使用sql导入hbase_table_1

insert overwrite table hbase_table_1 select * frompokes;

e)       查看数据

hive>select * from hbase_table_1;
OK
1 hello
2 pear
3 world

8安装mahout

a)       解压mahout-distribution-0.8.tar.gz到/usr/hadoop/下

b)       sudo/etc/profile配置环境变量

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

export HADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

export PATH=$HADOOP_HOME/bin

exportCLASSPATH=$CLASSPATH:$MAHOUT_HOME/lib:HADOOP_CONF_DIR

c)       启动hadoop

d)      bin/mahout--help //检查Mahout是否安装完好,看是否列出了一些算法

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

9 Tomcat安装配置

9.1下载apache-tomcat-7.0.42.tar.gz

9.2 在/usr/下新建文件夹tomcat

$cd /usr

$sudo mkdir tomcat

9.3 解压apache-tomcat-7.0.42.tar.gz在tomcat文件夹下

$cd /usr/tomcat

$sudo tar –zxvf apache-tomcat-7.0.42.tar.gz

解压之后tomcat文件夹下会生成一个叫做apache-tomcat-7.0.42的文件夹

9.4 配置环境变量

$sudo gedit /etc/profile,加入以下红色部分

export JAVA_HOME=/usr/java/jdk1.7.0_40

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

exportHADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

exportMAVEN_HOME=/usr/maven/apache-maven-2.2.1

exportCATALINA_HOME=/usr/tomcat/apache-tomcat-7.0.42

export HIVE_HOME=/usr/hadoop/hive-0.10.0

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$JAVA_HOME/bin:$MAHOUT_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$MAVEN_HOME/bin:$CATALINA_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$MAHOUT_HOME/lib:$HADOOP_HOME/lib:$HADOOP_CONF_DIR:$MAVEN_HOME/lib:$CATALINA_HOME/lib:$HIVE_HOME/lib:$HBASE_HOME/lib:$JAVA_HOME/lib/tools.jar

$source etc/profile //使环境变量生效

9.5检查安装是否成功

$cd /usr/tomcat/apache-tomcat-7.0.42

$bin/startup.sh

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

打开firefox,输入http://localhost:8080,如果正常访问,则表示成功。

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

10Nutch安装及设置

10.1 下载apache-nutch-1.2-bin.tar.gz

10.2 解压apache-nutch-1.2-bin.tar.gz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf apache-nutch-1.2-bin.tar.gz

解压之后hadoop文件夹下会生成一个叫做nutch-1.2的文件夹

10.3 修改nutch-site.xml文件

在根目录conf文件夹找到nutch-site.xml,打开在configuration标签里面添加:

<property>

<name>http.agent.name</name>

<value>openlab</value>

</property>

10.4添加nutch命令到/usr/bin

$cd /usr/bin

$ln -s {nutch根目录}/bin/nutch ./nutch

在任意目录输入nutch命令,有选项提示,则配置成功.

11Solr安装及设置

11.1 下载solr-4.4.0.tgz

11.2 解压solr-4.4.0.tgz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf solr-4.4.0.tgz

解压之后hadoop文件夹下会生成一个叫做solr-4.4.0的文件夹

11.3将solr-4.4.0下面dist/solr-4.4.0.war拷到tomcat的webapps文件夹下面,修改为solr.war

启动一次tomcat,在解压出的war包文件夹里面找到WEB-INF/lib,然后把mmseg4j-all-1.8.5.jar包拷进去。

如solr.war,tomcat启动之后会产生solr目录。

11.4将solr-4.4.0\example\ 下的 solr 目录拷贝到任意位置,

我是放在:~/solr_home

11.5  在tomcat目录下的conf\Catalina\localhost\solr.xml文件,添加如下内容:

<Context docBase="/usr/tomcat/apache-tomcat-7.0.42/webapps/solr.war"debug="0" crossContext="true" >
   <Environment name="solr/home"type="java.lang.String" value="/home/hadoop/solr_home"override="true" />
</Context>

若目录下没有该solr.xml文件,则新建一个,注意还要在文件开头添加xml头:

<?xml version="1.0"encoding="UTF-8"?>

11.6 修改solr工作目录conf文件夹下的配置文件solrconfig.xml

<dataDir>${solr.data.dir:/home/hadoop/solr_home/data}</dataDir>

11.7  检查是否配置正确

首先启动tomcat

运行localhost:8080/solr

如果成功进入,则部署成功。

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程