Hadoop集群(CHD4)实践之 (5) Sqoop安装


目录结构
Hadoop集群(CDH4)实践之 (0) 前言
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建
Hadoop集群(CDH4)实践之 (3) Hive搭建
Hadoop集群(CHD4)实践之 (4) Oozie搭建
Hadoop集群(CHD4)实践之 (5) Sqoop安装

本文内容
Hadoop集群(CHD4)实践之 (5) Sqoop安装

参考资料
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/CDH4-Installation-Guide.html

环境准备
OS: CentOS 6.4 x86_64
Servers:
hadoop-master: 172.17.20.230 内存10G
- namenode
- hbase-master

hadoop-secondary: 172.17.20.234 内存10G
- secondarybackupnamenode,jobtracker
- hive-server,hive-metastore
- oozie
- sqoop

hadoop-node-1: 172.17.20.231 内存10G sudo yum install hbase-regionserver
- datanode,tasktracker
- hbase-regionserver,zookeeper-server

hadoop-node-2: 172.17.20.232 内存10G
- datanode,tasktracker
- hbase-regionserver,zookeeper-server

hadoop-node-3: 172.17.20.233 内存10G
- datanode,tasktracker
- hbase-regionserver,zookeeper-server

对以上角色做一些简单的介绍:
namenode - 整个HDFS的命名空间管理服务
secondarynamenode - 可以看做是namenode的冗余服务
jobtracker - 并行计算的job管理服务
datanode - HDFS的节点服务
tasktracker - 并行计算的job执行服务
hbase-master - Hbase的管理服务
hbase-regionServer - 对Client端插入,删除,查询数据等提供服务
zookeeper-server - Zookeeper协作与配置管理服务
hive-server - Hive的管理服务
hive-metastore - Hive的元存储,用于对元数据进行类型检查与语法分析
oozie - Oozie是一种Java Web应用程序,用于工作流的定义和管理
sqoop - Sqoop是一个转换工具,用于在关系型数据库与HDFS之间进行数据转换

本文定义的规范,避免在配置多台服务器上产生理解上的混乱:
以下操作都只需要在 Sqoop 所在主机,即 hadoop-secondary 上执行。

1. 安装前的准备
Hadoop集群(CHD4)实践之 (4) Oozie搭建

2. 安装Sqoop
$ sudo yum install sqoop sqoop-metastore

3. 启动Sqoop Metastore
$ sudo service sqoop-metastore start

4. 配置JDBC驱动
MySQL JDBC Driver:
$ sudo yum install mysql-connector-java
$ sudo ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/sqoop/lib/mysql-connector-java.jar

Microsoft SQL Server JDBC Driver:
$ wget http://download.microsoft.com/download/0/2/A/02AAE597-3865-456C-AE7F-613F99F850A8/sqljdbc_4.0.2206.100_enu.tar.gz
$ tar xzvf sqljdbc_4.0.2206.100_enu.tar.gz
$ sudo cp sqljdbc_4.0/enu/sqljdbc4.jar /usr/lib/sqoop/lib/

5. 配置HCAT_HOME
$ sudo vim /etc/profile.d/sqoop.sh

 
export HCAT_HOME=/var/lib/sqoop

$ source /etc/profile

6. 至此,Sqoop的安装就已经完成。

,

  1. #1 by 呈出不穷 on 2014/08/20 - 15:38

    博主,你有做过从CDH4升级到CDH5的尝试吗?期待你的分享。

    • #2 by mcsrainbow on 2014/08/20 - 18:37

      CDH的升级,如果版本跨度比较大,比如从3到4,或4到5,基本上需要全部重新来过,删掉以前所有的软件包,然后重新安装部署,之前所有的数据,包括HDFS中的都无法保留;如果是同一个系列中的小版本升级,那么还是需要删掉所有现有的软件包,然后重新部署,但所幸的是,之前的所有数据包括HDFS中的,都可以完好的保留下来。

  2. #3 by ddlay on 2015/03/02 - 11:20

    你好!sqoop通过map-reduce任务来传输数据,依赖于hadoop,大多数安装都是在hadoop集群机下面,
    如果想安装在非hadoop集群机器下,通过远程调用来实现数据传输,可以说说方法吗?

    • #4 by mcsrainbow on 2015/03/12 - 15:36

      你可以试试通过Sqoop REST API来操作。

(will not be published)
*