Kettle 安装配置

本文介绍: Ke t tle的7.1版本的太旧了，容易出现闪退，右击就死机等bug，9.x太新了也会有bug，下载8.2版本的安装包。Kettle把Hi v e当作一个数据库，支持连接Hi ve Ser ver和Hive Server 2，数据库连接类型的名字分别为Had oop Hive 和 Had oop Hive 2。完成了Kettle的安装之后，我们还需要通过配置，使得Kettle 可以与Had oop 协同工作。在Kettle 工作区左侧的“主对象树”标签中，选择“DB 连接” → 右键“新建”，对话框中输入如图所示的属性值。

文章 目录

Kettle 安装配置

Kettle 安装 配置

Kettle 安装

在安装Kettle之前，需要确定已经安装Jav a 运行环境。Kettle需要Jav a的支持才能运行，JDK的版本最好是8.x的太新的也会出现 bug。Kettle的7.1版本的太旧了，容易出现闪退，右击就死机等bug，9.x太新了也会有bug，下载8.2版本的安装包。如图所示：Kettle官方网站下载地址如下：Pentaho from Hitachi Vantara – Browse Files at SourceForge.net

在这里插入图片描述

在Win do ws 系统上，可以直接双击“spoon.bat”文件启动Kettle。在Linux或Mac OS系统上，可以在命令行中输入“./spoon.sh”命令启动Kettle。

在这里插入图片描述

Kettle 配置

完成了Kettle的安装之后，我们还需要通过配置，使得Kettle可以与Had oop 协同工作。通过提交适当的参数，Kettl可以连接Had oop的HDFS、MapRedu ce、Zo o keeper、Oozie、Sqoop 和Spark 服务。在数据库连接类型中支持Hive和Imp ala。

在配置连接前，要确认Had oop和Hive虚拟机中已经正确安装并启动。使用FTP工具，连接虚拟机，找到Had o op和Hive中的配置文件：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、hive-site.xml，合计5个，下载到Kettle根目录下的pluginspentaho-big-data-pluginhadoop-configurationscdh514目录下，覆盖原来Kettle自带的这些文件。

在本机配置IP地址映射，修改C:WindowsSystem32driversetchosts文件，加入主机名与IP对应关系，填自己的IP和主机名。

192.168.88.102 hadoop102
192.168.88.103 hadoop103
192.168.88.104 hadoop104

在Sp o on 界面中，选择主菜单“工具”→“Hadoop Distribution…”，从弹出窗口中可以看到五种Shi m。选择“Cloudera CDH 514”，点击OK 按钮确定后重启Spoon.

接下来我们新建一个作业来测试一下Kettle与Ha doop的连接。在工作区左侧的树的“主对象树”标签中，右击“作业”点击“新建”。选择 Ha doop cluster s→ 右键 New Cluster。

在这里插入图片描述
选择对话框中输入如图所示的属性值

在这里插入图片描述

Ha doop集群配置窗口中的选项及定义说明如下：

Cluster Na me：定义要连接的集群名称，这里为hadoop。

Hostname（HDFS 段）：Hadoop集群中NameNode节点的主机名。本例中在虚拟机的主机名已经设置为hadoop102。

Port（HDFS 段）：Hadoop集群中NameNode节点的端口号。

Username（HDFS 段）：HDFS的用户名，通过宿主操作系统给出，可以不填。这里为虚拟机登录用户名。

Pass word（HDFS 段）：HDFS的密码，通过宿主操作系统给出，可以不填。虚拟机登录密码。

Hostname（JobTrac ker 段）：Hadoop集群中JobTrac ker节点的主机名。如果有独立的JobTracker节点，在此输入，否则使用HDFS的主机名。

Port（JobTracker 段）：Hadoop集群中JobTrac ker节点的端口号，不能与 HDFS 的端口号相同。

Hostname（ZooKee per 段）：Hadoop集群中Zookeeper节点的主机名，只有在连接Zookeeper 服务时才需要。

Port（ZooKee per 段）：Hadoop集群中Zookeeper节点的端口号，只有在连接Zook ee pe 服务时才需要。

URL（Oozie 段）：Oozie WebUI的地址，只有在连接Oozie。

然后点击“测试”按钮，测试结果如图2-6所示。此时Oozi和Zook ee per 因为没有进行安装，所以必定会有连接失败的警告。“User Home Directory Access”这条报错则是由于当前 Kettle 是安装在宿主机的Windows 系统中，Windows 上

运行的 Kettle 在连接 Hadoop 集群时，始终用本机用户连接 Hadoop 集群，因此User Home Directory Acce ss会报错。将Kettle 安装到 Hadoop 所在的虚拟机中可以解决此问题。此处不影响后续的操作。

在这里插入图片描述

连接 Hive

接下来，我们再尝试使用Kettle连接Hive。Kettle把Hive当作一个数据库，支持连接Hive Server和Hive Server 2，数据库连接类型的名字分别为Hadoop Hive 和 Hadoop Hive 2。这里在Kettle中建立一个Hadoop Hive 2类型的数据库连接。

在远程连接虚拟机，进入 Hive 目录，然后启动 HiveServer2 服务，命令“hive server2”，

在Kettle工作区左侧的“主对象树”标签中，选择“DB 连接” → 右键“新建”，对话框中输入如图所示的属性值

在这里插入图片描述
上图的数据库连接配置窗口中的选项及定义说明如下：

Connect ion Name：定义连接名称，这里为 hive。

Connect ion Ty pe：连接类型选择 Hadoop Hive 2。

Host Name：输入HiveServer2对应的主机名，这里是hadoop102。

Datebase Name：这里输入的default是Hive里默认的一个数据库名称。

Port Number：端口号输入 hive.server2.thrift.port参数的值，我们连接时设置的端口号为10000。

User Name：用户名，这里为虚拟机登录用户名。

Pass word：密码，这里为虚拟机登录密码。