大数据数据仓库，Sqoop–学习笔记

本文介绍: 数据仓库，sqoop的基础知识

数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是：数据仓库（Data Wa re house）是一个面向主题的（Subject Oriented）、数据集成的（Integrated）、相对稳定(非易失)的（Non-Volatile）、反映历史变化(时变)（Time Variant）的数据集合，用于支持管理决策(Decision Makin g Sup port)。
数据仓库是决策支持系统（dss）的结构化数据环境，如下图，决策支持系统基于数据仓库进行联机分析处理 ( OLAP ) 。常用的技术有，HDFS、HBase、Hive、Sp arkSql等。

OLTP（On-Line Transaction Process ing）即联机事务处理，也称为面向交易的处理过程，其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果，是对用户操作快速响应的方式之一，比如ERP系统，CRM系统，互联网电商系统等，这类系统的特点是事务操作频繁，数据量小。
OLAP（On-Line Analytical Processing）即联机分析处理，有时也称为决策支持系统（DSS），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。这类系统的特点是没有事务性操作，主要是查询操作，数据量大。

数据库应用是以业务流程来划分应用程序和数据库，比如ERP（Enterprise Resource Planning）包括：进销存系统、人力资源管理系统、财务管理系统、仓库管理系统等，进销存系统管理了进货、销售、存储等业务流程，人力资源系统管理了员工的信息、待遇等相关信息。
数据仓库是以数据分析需求来对数据进行组织划分若干主题，比如销售主题、员工主题、产品主题，主题是一个抽象的概念，可以理解为相关数据的分类、目录等，通过销售主题可以进行销售相关的分析，如年度销量排行、月度订单量统计等。
总之，主题是以分析需求为导向来组织数据，数据库应用系统是以业务流程为导向来组织数据，注意：主题中的数据是跨应用系统的。

主题中的数据是跨应用系统的，也就是说数据是分散在各各应用系统，比如销售数据在进销存系统中有，财务系统中也有，为了进行销售分析需要将销售数据进行集成，集成在销售主题中，就可以从销售主题来进行数据分析。

数据库应用系统是根据业务需求进行数据处理和存储，而数据仓库是根据数据分析需求来进行数据存储，数据仓库中的数据用于查询和分析，为了保证数据分析的准确性和稳定性，数据仓库中的数据一般是很少更新的，会将历史快照保存下来。

数据仓库中的数据存储的是历史数据，历史数据是随时间变化的，比如历年的销售数据都会存储到数据仓库中，即使数据仓库中的数据很少更新，但也不能保证没有变化，如下需求：
1）会不断添加新数据
每年的销售数据会逐渐添加到数据仓库。
2）删除过期数据
数据仓库中的数据会保存很长的时间（5–10年），但也有过期时间，到过期时间会删除过期数据。
3）对历史明细数据进行聚合
为了方便数据分析，根据分析需求会将比较细粒度的数据进行数据聚合存储，这也是时变的一种表现，比如：为了方便统计年度销售额会将销售记录按月进行统计，统计年度销售额时只需要针对月度销售结果进行统计即可。

sqoop import 
--hive-import 
--connect 'jdbc:mysql://localhost:3306/test' 
--username 'root' 
--password '123456789' 
--query " select order_no from driver_action where  $CONDITIONS" 
--hive-database test 
--hive-table driver_action 
--hive-partition-key pt 
--hive-partition-value 20190901 
--null-string '' 
--null-non-string '' 
--num-mappers 1 
--target-dir /tmp/test 
--delete-target-dir

sqoop import 
--connect jdbc:mysql://localhost:3306/test
--username 'root' 
--password 'root' 
--query "SELECT order_no FROM driver_action  WHERE $CONDITIONS" 
--hcatalog-database test 
--hcatalog-table driver_action 
--hcatalog-partition-keys pt 
--hcatalog-partition-values 20200104 
--hcatalog-storage-stanza 'stored as orcfile tblproperties ("orc.compress"="SNAPPY")' 
--num-mappers 1

sqoop import 
--connect jdbc:mysql://localhost:3306/test
--username 'root' 
--password 'root' 
--query "SELECT order_no_src as order_no_target  FROM driver_action WHERE $CONDITIONS" 
--hcatalog-database test 
--hcatalog-table driver_action 
--hcatalog-partition-keys pt 
--hcatalog-partition-values 20200104 
--hcatalog-storage-stanza 'stored as orc tblproperties ("orc.compress"="SNAPPY")' 
--num-mappers 1

/usr/bin/sqoop import --connect jdbc:mysql://192.168.88.80:3306/test --password 123456 --username root --table emp --m 1
注意，mysql地址必须为服务器IP，不能是localhost或者机器名。

在导入表数据到HDFS时，使用Sqoop导入工具，我们可以指定目标目录。
使用参数 --target-dir来指定导出目的地，
使用参数--delete-target-dir来判断导出目录是否已存在，如果存在就删掉
/usr/bin/sqoop import  --connect jdbc:mysql://192.168.88.80:3306/test --username root --password 123456 --delete-target-dir --table emp  --target-dir /sqoop/emp --m 1
查看导出的数据
hdfs dfs -text /sqoop/emp/part-m-00000

/usr/bin/sqoop import  --connect jdbc:mysql://192.168.88.80:3306/test --username root --password 123456 --delete-target-dir --table emp  --target-dir /sqoop/emp2 --m 1 --fields-terminated-by 't'
查看文件内容
hdfs dfs -text /sqoop/emp2/part-m-00000

/usr/bin/sqoop import 
--connect jdbc:mysql://192.168.88.80:3306/test 
--username root 
--password 123456 
--table emp 
--fields-terminated-by 't' 
--hcatalog-database sqooptohive 
--hcatalog-table emp_hive 
-m 1

/usr/bin/sqoop import 
--connect jdbc:mysql://192.168.88.80:3306/test 
--username root --password 123456 --table emp_add 
--target-dir /sqoop/emp_add -m 1  --delete-target-dir 
--where "city = 'sec-bad'"

/usr/bin/sqoop import 
--connect jdbc:mysql://192.168.88.80:3306/test --username root --password 123456 
--delete-target-dir -m 1 
--query 'select phno from emp_conn where 1=1 and  $CONDITIONS' 
--target-dir /sqoop/emp_conn

/usr/bin/sqoop import 
--connect jdbc:mysql://192.168.88.80:3306/test --username root --password 123456 
--query "select * from emp where id>1203 and  $CONDITIONS" 
--fields-terminated-by 't' 
--hcatalog-database sqooptohive 
--hcatalog-table emp_hive 
-m 1

/usr/bin/sqoop export 
--connect jdbc:mysql://192.168.88.80:3306/test --username root --password 123456 
--table emp_out 
--hcatalog-database sqooptohive 
--hcatalog-table emp_hive 
-m 1

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

sqoop 数据数据仓库

数据 仓库介绍

1. 数据 仓库 概念

2，OLTP和OLAP区别

数据仓库的特点

1，面向 主题

2，数据集成

3，非易失

4，时变

维度分析

1，识别维度案例

2，维度分层与分级

3，下钻与上卷

数仓建模

1. 概述

2. 事实表

3. 维度表

4. 常见的建模方法

渐变维（SCD）

1，什么是渐变维

2，解决问题的方法

数据仓库分层

1，数据分层的好处

Sqoop

1， Sqoop介绍

2,为什么选择Sqoop

3,sqoop1与sqoop2架构对比

4. Sqoop抽取的两种方式

5，Sqoop方式

6, HCatalog方式

项目选型

2,基础命令

3，导入数据库表数据到HDFS

4，导入到HDFS指定目录

5，导入到hdfs指定目录并指定字段之间的分隔符

6，导入关系表到HIVE

7，条件部分导入

8，增量导入数据到Hive表

Sqoop数据导出

发表回复取消回复

数据仓库介绍

1. 数据仓库概念