基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析（一）——创建Glue

在这里插入图片描述

在任务中，我们经常会使用Glue爬网程序来填充我们的数据目录。
爬虫可以在一次运行中爬取多个数据存储。在爬取完成后，我们会在数据目录中看到由爬虫创建的一个或多个表。
创建表后，我们就可以在接下来的Ath ena查询或ETL作业中使用表来作为源或目标了。

步骤	图例
1、入口
2、输入爬虫名称
3、选择数据源类型（Data St o res：创建，Ex isting catalog tables：更新）选择爬取类型（Crawl all f old e rs：爬取全部文件夹，Crawl new f olders only：只爬取新文件夹，Crawl change d f olders indentifie d b y Amazon S3 Event Noti fi cat ions：只爬取S3事件通知的有变更的文件夹）
4、选择s3 （可对s3中的需要爬取的数据进行筛选）
5、创建或选择爬网程序IAM角色（需要有对应S3与Glue的权限）
6、对于不确定的实时数据或许要定时更新的数据，可按需选择频率；若只需创建表结构，可选择按需运行
7、确认

此时，数据库与爬网程序已准备完毕。
我们将会运行爬网程序自动分析数据结构并创建表。

如果对待爬取数据结构未知，或者结构复杂、字段繁杂，则使用“爬网程序创建表”；对于对待爬取数据结构清晰明了的，可以使用“手动创建表”模式。