本文介绍: 1. 目的:了解什么是分布式SQL计算;了解什么是Apache Hive2. 使用Hive处理数据的好处操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手底层执行MapReduce,可以完成分布式海量数据的SQL处理3. 什么是分布式SQL计算?以分布式的形式,执行SQL语句,进行数据统计分析。4. Apache Hive是做什么的?很简单,是一款分布式SQL计算的工具,将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

一、 Apache Hive概述

1. 目的:了解什么是分布式SQL计算;了解什么是Apache Hive

2. 使用Hive处理数据的好处

  • 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
  • 底层执行MapReduce,可以完成分布式海量数据的SQL处理

3. 什么是分布式SQL计算

以分布式的形式,执行SQL语句,进行数据统计分析。

4. Apache Hive是做什么的?

很简单,是一款分布式SQL计算的工具,将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

  • 传统MapReduce开发:写MR代码 -> 得到结果
  • 使用Hive开发:写SQL -> 得到结果
  • 底层都是MR在运行,但是使用层面更加简单了。

2. 模拟实现Hive功能

基于MapReduce构建分布式SQL执行引擎,主要需要有哪些功能组件?

  • 元数据管理
  • SQL解析器 

3. Hive基础架构

4. Hive部署

4.1 在VMware虛拟机集群中,完成Hive的安装部署

Hive是单机工具,只需要部署在一台服务器即可。Hive虽然是单机的,但是它可以提交分布式运行的MapReduce程序运行。

第四章-04-[实操]Hive在VMware虚拟机中部署_哔哩哔哩_bilibili

步骤1: 安装MySQL数据库(部署MySQL数据库,并配置root账户密码)
步骤2: 配置Hadoop(下载Hive上传并解压和设置软链)
步骤3: 下载解压Hive
步骤4: 提供MySQL Driver包(下载MySQL驱动jar包放入Hive的lib目录)
步骤5: 配置Hive(修改配置文件 (hive-env.sh和hive-site.xm)
步骤6: 初始化元数据库(启动hive的metastore服务:前台/后台启动)
步骤7: 启动Hive(使用Hadoop用户)(bin/hive)

4.2 在阿里云中创建RDS作为Hive的元数据存储数据库,并完成Hive的安装部署

第四章-05-[可选]在阿里云上部署Hive_哔哩哔哩_bilibili

  • 云平台上均有提供RDS服务(Relational Database service,关系型数据库服务),即云上的数据库。
  • 借助云平合我们无需手动搭建MySQL服务,只需要简单的购买RDS即可(需付费
4.3 在Ucloud云中创建UDB作为Hive的元数据存储数据库,并完成Hive的安装部署

第四章-06-[可选]在UCloud云上部署Hive.mp4_哔哩哔哩_bilibili

5. Hive初体验

目标:体验在Hive中使用SQL来处理数据

 
6. Hive客户端

6.1 HiveServer2 & Beeline

目标:理解HiveServer2的作用;掌握使用Beeline客户端连接Hiveserver2操作Hive​​​​​​​

6.2 DataGrip & DBeaver

目标:掌握使用DataGrip链接Hive使用;掌握使用DBeaver链接Hive使用

第四章-09-[实操]DataGrip&DBeaver连接HiveServer2使用_哔哩哔哩_bilibili

原文地址:https://blog.csdn.net/S1406793/article/details/135657475

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_59370.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注