软考笔记–数据仓库技术

本文介绍: 为了更好地管理非结构化数据，数据仓库采用了元数据，元数据可用于记录数据的文件标识符，进入数据仓库的日期，文件描述，文件来源等信息。企业仓库面向企业级应用，它搜集了企业的各个主题的所有信息，提供企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是快多个功能范围的。数据集市面向企业部门级应用，包含对特定用户有用的，企业范围数据的一个子集，它的范围限定在选定的主题中。自底向上的核心思想是从企业中最关键的部分开始，先以最少的投资，完成当前的需求，获得最快的回报，然后不断扩充，不断完善。

数据仓库是一个面向主题的，集成的，相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据源是数据仓库系统的基础，是整个系统的数据源泉。OLAP（联机分析处理）服务器对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。前端工具主要包括各种报表工具，查询工具，数据分析工具和数据挖掘工具，以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

一.联机分析处理

数据处理大致可以分为两大类，分别是联机事务处理（OLTP）和OLAP。OLTP是传统数据库的主要应用，支持基本的、日常的事务且提供直观易懂的查询结果。

在OLTP中，数据是以二维表的形式来组织的，但是在OLAP中，数据通常是多维的。这个维度一般包含层次关系，这种层次关系有时会相当复杂，因此OLAP也可以说是多维数据分析工具的集合。

1.数据立方体

在多维的数据结构中，三维结构最为直观。