使用 Kettle 完成数据 ETL_代码007(未授权)

本文介绍: 在 Sp o on 主界面的左侧项目栏的“核心对象”中，选择“Bi g Da t a”→“Had oop File Out put”, 拖拽该控件到右侧的设计区域，并与“剪切字符串”控件进行连接，连接时会出现两个选项，即“主输入步骤”和“错误处理步骤”，这里需要选择“主输入步骤”。双击鼠标打开“剪切字符串”控件属性设置对话框，将“输入流字段”设置为“Fie ld1”, “输出流字段”不用改变，“起始位置”设置为 0，“结束位置”设置为10，单击“确定”按钮。如果转换过程成功执行，所有控件右上角都会显示“勾号”。

现在我们有一份网站的日志数据集，准备使用Ket tle进行数据ETL。先将数据集加载到Had oop 集群中，然后对数据进行清洗，最后加载到Hi ve中。

在本地新建一个数据集文件weblogdata.txt，文件内容如下所示：

2018-10-01 10:00:00,"http://www.example.com/path/to/page1.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:01,"http://www.example.com/path/to/page2.html",192.168.1.2,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:02,"http://www.example.com/path/to/page3.html",192.168.1.3,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:03,"http://www.example.com/path/to/page4.html",192.168.1.4,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:04,"http://www.example.com/path/to/page1.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:05,"http://www.example.com/path/to/page1.html",192.168.1.2,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:06,"http://www.example.com/path/to/page2.html",192.168.1.3,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:07,"http://www.example.com/path/to/page3.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"

字段说明如下：

在之前创建的作业中，点击“核心对象”标签，选择“通用”下面的“START”,拖曳1个“START”控件到右侧的设计区域。

在左侧项目栏的核心对象中，选择“Big Data”下面的“Hadoop Copy Files”控件，拖曳1个“Hadoop Copy Files”控件到右侧的设计区域。然后，单击“START”控件，在弹出的下拉选项中，选择最右侧的按钮，将箭头拖拽至“Hadoop Copy Files”控件，使得“Hadoop Copy Files”与“START”控件之间建立连接。

如果是没有权限操作 HDFS中的“/input”目录。这也与之前在配置 Hadoop 集群连接的时候，产生“User Home Directory Access”和“Root Directory Access”这两条错误信息的原因一致。我们可以通过配置“/input”目录的权限，来解决此处报错。具体命令如下所示。

[user@hadoop102 ~]$ hdfs dfs -chmod 777 /input

[user@hadoop102 ~]$ hdfs dfs -ls /input

-rw-r--r--   3  LZ  supergroup	 1472	 2023-05-07 17:05 	/input/weblogdata.txt

[user@hadoop102 ~]$ hdfs dfs -rm /input/weblogdata.txt

[user@hadoop102 opt]$ hdfs dfs -cat /input/logs.txt

CREATE EXTERNAL TABLE weblogs (
datetime STRING,
url STRING,
ip STRING,
user_agent STRING
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/input';

CREATE TABLE weblogs_visits as
SELECT url, COUNT(*) AS visit_count
FROM weblogs
GROUP BY url
ORDER BY visit_count DESC;

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

文章 目录

使用 Ket tle 完成 数据 ETL

数据清洗

数据处理

发表回复取消回复

使用 Kettle 完成数据 ETL

数据清洗

相关文章

发表回复 取消回复

使用 Ket tle 完成数据 ETL

发表回复取消回复