03-黑马程序员大数据开发：Apache Hive

本文介绍: 1. 目的：了解什么是分布式SQL计算；了解什么是Apache Hive2. 使用Hive处理数据的好处操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手底层执行MapReduce，可以完成分布式海量数据的SQL处理3. 什么是分布式SQL计算？以分布式的形式，执行SQL语句，进行数据统计分析。4. Apache Hive是做什么的？很简单，是一款分布式SQL计算的工具，将SQL语句翻译成MapReduce程序，从而提供用户分布式SQL计算的能力。

一、 Apache Hive概述

1. 目的：了解什么是分布式SQL计算；了解什么是Apache Hive

2. 使用Hive处理数据的好处

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手)
底层执行MapReduce，可以完成分布式海量数据的SQL处理

3. 什么是分布式SQL计算？

以分布式的形式，执行SQL语句，进行数据统计分析。

4. Apache Hive是做什么的？

很简单，是一款分布式SQL计算的工具，将SQL语句翻译成MapReduce程序，从而提供用户分布式SQL计算的能力。

传统MapReduce开发：写MR代码 -> 得到结果
使用Hive开发：写SQL -> 得到结果
底层都是MR在运行，但是使用层面更加简单了。

2. 模拟实现Hive功能

基于MapReduce构建分布式SQL执行引擎，主要需要有哪些功能组件？

元数据管理
SQL解析器

3. Hive基础架构

4. Hive部署

4.1 在VMware虛拟机集群中，完成Hive的安装部署

Hive是单机工具，只需要部署在一台服务器即可。Hive虽然是单机的，但是它可以提交分布式运行的MapReduce程序运行。

第四章-04-[实操]Hive在VMware虚拟机中部署_哔哩哔哩_bilibili

步骤1: 安装MySQL数据库（部署MySQL数据库，并配置root账户密码)
步骤2: 配置Hadoop（下载Hive上传并解压和设置软链）
步骤3: 下载解压Hive
步骤4: 提供MySQL Driver包（下载MySQL驱动jar包放入Hive的lib目录）
步骤5: 配置Hive（修改配置文件 (hive-env.sh和hive-site.xm）
步骤6: 初始化元数据库（启动hive的metastore服务：前台/后台启动）
步骤7: 启动Hive（使用Hadoop用户）（bin/hive）