开源ETL工具：Kettle

Kettle也叫PDI，在2006年Kettle加入了开源的BI组织Pentaho，正式命名为PDI，英文全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL需要：抽取、转换、装入和加载数据；翻译成中文名称应该叫水壶，名字的起源正如该项目的主程序员MATT在一个论坛里说的那样：希望把各种数据放到一个壶里然后以一种指定的格式流出。

Kettle允许管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，转换（transformation）和工作（job），transformation完成针对数据的基础转换，job则完成整个工作流的控制。
Kettle整体结构图：

开源ETL工具：Kettle

Kettle的术语：

Transformation：转换步奏，可以理解为将一个或者多个不同的数据源组装成一条流水线。然后最终输出到某一个地方，文件或者数据库等。
Job：作业，可以调度设计好的转换，也可以执行一些文件处理（比较，删除），还可以上传下载文件、发送邮件、执行Shell命令等。 Job与Transformation的差别是：Transformation专注于数据的ETL，而Job的范围比较广，可以是 - Transformation，也可以是Mail、SQL、Shell、FTP等等，甚至可以是另外一个Job。
Hop：连接Transformation步骤或者连接Job（实际上就是执行顺序）的连线。
Transformation hop：主要表示数据的流向。从输入，过滤等转换操作，到输出。
Job hop：可设置执行条件：无条件执行、当上一个Job执行结果为true时执行、当上一个Job执行结果为false时执行
Kettle家族目前包括4个产品：Spoon、Pan、CHEF、Kitchen。

SPOON 允许你通过图形界面来设计ETTL转换过程（Transformation）。
PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序，没有图形界面。
CHEF 允许你创建任务（Job）。任务通过允许每个转换，任务，脚本等等，更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换，任务，脚本等等。任务将会被检查，看看是否正确地运行了。
KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。
简单的可理解为：
Spoon：Transformation设计工具（GUI方式）
Pan：Transformation执行器（命令行方式）
Chef：Job设计工具（GUI方式）
Kitchen：Job执行器（命令行方式）

Kettle是由纯JAVA编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。要运行kettle工具必须安装Sun公司的JAVA运行环境，安装好java环境后，在操作系统环境变量path中配置jre路径，把kettle工具压缩包解压后可直接使用。 Spoon是一个图形用户界面，它允许你运行转换或者任务，其中转换是用Pan工具来运行，任务是用Kitchen来运行。Pan是一个数据转换引擎，它可以执行很多功能，例如：从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。下面是在不同的平台上运行 Spoon所支持的脚本：
Spoon.bat：在windows 平台运行Spoon。
Spoon.sh：在 Linux、Apple OSX、Solaris 平台运行 Spoon。
资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。资源库有两种形式：

Kettle database repository，即保存在各种常见的数据库资源库类型，用户通过用户名/密码来访问资源库中的资源，默认的用户名/密码是admin/admin和guest/guest。
Kettle file repository，保存在服务器硬盘文件夹内的资源库类型，此类型的资源库无需用户进行登录，直接进行操作。
资源库并不是必须的，如果没有资源库，用户还可以把转换任务保存在xml文件中。为了方便管理，建议用户建立并使用数据库类型资源库Kettle database repository。

Kettle的应用场景：

表视图模式：在同一网络环境下，对各种数据源的表数据进行抽取、过滤、清洗等，例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式；传统的实现方式一般都要进行研发（一小部分例如两个相同表结构的表之间的数据同步，如果SQL Server数据库可以通过发布/订阅实现）。
前置机模式：这是一种典型的数据交换应用场景，数据交换的双方A和B网络不通，但是A和B都可以和前置机C连接，一般的情况是双方约定好前置机的数据结构，这个结构跟A和B的数据结构基本上是不一致的，这样我们就需要把应用上的数据按照数据标准推送到前置机上，此时可通过Kettle实现；
文件模式: 数据交互的双方A和B是完全的物理隔离，这样就只能通过以文件的方式来进行数据交互了，例如XML格式，在应用A中我们开发一个接口用来生成标准格式的 XML，然后用介质在某一时间把XML数据拷贝之后，然后接入到应用B上，应用B上在按照标准接口解析相应的文件把数据接收过来；

Kettle转化功能介绍

Kettle 中有两种脚本文件，transformation (.ktr)和 job(.kjb)，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。

所有功能支持控件化，使用简单
支持多样化数据源类型：
基本的文本文件
Access、Excel、XML、Property文件格式
MDX查询语言、 Cube文件、Streaming XML数据流
自动产生空记录或者行
从XBase类型文件(DBF)读取数据
- 关系型数据库
获取系统信息如文件名称、系统时间等
特殊目标数据源支持
把数据写入到Cube
把数据写入XML
支持多种查询
调用数据库存储过程
基本的数据库查询
判断表以及列、操作系统文件是否存在
从URL接收查询
使用Web服务查询信息
使用数据流中的值作为参数来执行一个数据库查询
流查询：从转换中其他流里查询值
转换功能
值映射、分组、去重、拆分字段、行列转换
复制行
支持的脚本
JS脚本
SQL脚本
正则表达式
支持渐变维度更新
批量加载：
Greenplum Bulk Loader
Oracle Bulk Loader
MSSQL Bulk Loader
MYSQL Bulk Loader
PostgreSQL Bulk Loader
支持分区表和集群
支持大数据对接
Avro Input
Cassandra Input &
Kettle作业功能介绍

可以执行操作系统命令和操作：
Ping 主机
写日志
发送邮件
从POP Server获取邮件并保存在本地
比较文件夹、文件
创建、复制、移动、删除、压缩文件
从HTTP获取或者上传文件
操作延迟等待
判断文件是否存在
执行JavaScript、SQL、Shell脚本
支持安全FTP获取、上传文件
删除远程文件
支持SSH2上传下载
Kettle的功能非常强大，数据抽取效率也比较高，开源产品，可以进行第三方修改，工具中的控件能够实现数据抽取的大部分需求。所有功能支持控件化，使用简单。

秒客网

开源ETL工具：Kettle

Kettle转化功能介绍

Kettle 中有两种脚本文件，transformation (.ktr)和 job(.kjb)，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。

相关文章