数据仓库分层的原因多维数据模型元数据技术

时间:2024-03-14 15:54:04

韩亚飞_yue31313_韩梦飞沙 QQ:313134555


数据仓库分层的原因

编号

要点

描述

1 提高效率 通过数据预处理提高效率,因为预处理,所以会存在冗余数据
2 应对变化 如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大
3 逻辑清晰 通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了

 

标准的数据仓库分层:

编号

分层

分层

描述

1 ods 临时存储层 它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。
2 pdw 数据仓库层 它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据
3 mid 数据集市层 它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度讲,它是轻度汇总级别的数据,已经不存在明细的数据了。
4 app 应用层 数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。

ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)

 

也可分三层:

操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM)

数据缓存层,核心数据层,分析应用层。

 

数据仓库

数据仓库可以理解为中间集成化数据管理的一个平台

数据仓库的存储并不需要存储所有原始数据,因为比如你存储冗长的文本数据完全没必要,但需要存储细节数据,因为需求是多变的,而且数据仓库是导入数据必须经过整理和转换使它面向主题,因为前台数据库的数据是基于oltp操作组织优化的,这些可能不适合做分析,面向主题的组织形式才有利于分析。

 

多维数据模型

多维数据模型就是说可以多维度交叉查询和细分,应用一般都是基于联机分析处理(online analytical process OLAP)

 

元数据

元数据,也叫解释性数据,或者数据字典,会记录数据仓库中模型的定义,各层级之间的映射关系,监控数据仓库的数据状态和etl的任务运行状态。一般通过元数据资料库来统一存储和管理元数据。

 

技术:

数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

消息系统:可以加入Kafka防止数据丢失

实时计算:实时计算使用SparkStreaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中

机器学习:使用了SparkMLlib提供的机器学习算法

多维分析OLAP:使用Kylin作为OLAP引擎

 

操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM) 对比

他们在数仓架构中差异点大致如下(以标准理论为准,实际设计中都会有越界和妥协现象)

数据仓库分层的原因多维数据模型元数据技术

操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM)是目前标准数仓结构的三个核心组件。

 

ODS和贴源层(缓冲区)。
贴源层的数据结构和数据内容是和源系统一模一样的,包括里面的垃圾数据,唯一不同的是,贴源层加了“时间戳”。
ODS层,则要清洗掉垃圾数据,更改不能入库的格式为数仓支持的格式或优化后的格式,如nchar改为char或Varchar。
贴源层数据存放一般为一周左右,几乎不会超过一个月;而ODS则永久存放。


 

数据集市(英语:Data Mart),是数据仓库(Data Warehouse)的一种特殊形式。

 

操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分

ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。

 

OLTP也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。

 

OLTP 和 OLAP 对比

 

OLTP

OLAP

用户

操作人员,低层管理人员

决策人员,高级管理人员

功能

日常操作处理

分析决策

DB 设计

面向应用

面向主题

数据

当前的, 最新的细节的, 二维的分立的

历史的, 聚集的, 多维的集成的, 统一的

存取

读/写数十条记录

读上百万条记录

工作单位

简单的事务

复杂的查询

用户数

上千个

上百万个

DB 大小

100MB-GB

100GB-TB

时间要求

具有实时性

对时间的要求不严格

主要应用

数据库

数据仓库

 

名词术语:

名词

解释

DM 数据集市。Data Mart
DW 数据仓库。Data Warehouse
ODS 操作型数据库。Operational Data Store
EDW 企业级数据仓库。enterprise data warehouse
OLTP 在线事务处理过程。On-Line Transaction Processing
OLAP 在线分析处理 online analytical process 
mid tier 中间层 (Middle Tier)也称作“应用程序服务器层或应用服务层”
pdw 并行数据仓库。Parallel Data Warehouse
mid 中间层
dmi 数据集市的接口。Data Mart Interface
BI 商业智能。business intelligence。
SOA 面向服务架构。server oriented architecture。
MDM 主数据管理。master data management。
DD 退化维度。degenerate dimension
FK 外键。foreign key
PK 主键。primary key
SCD 渐变维度。slowly changing dimension。
3NF 第三范式。third normal form。
ER 实体关系。entity-relationship
ETL 提取、转换、加载。extract、transform、load。
CIO 首席信息官。Chief Information Officer。
KPI 关键绩效指标。key performance indicator。
GL 总账。general ledger
ERP 企业资源规划。enterprise resource planning
SAN 存储区域网络。storage area network
LDAP 轻量目录访问协议。lightweight directory access protocol。
DBA 数据库管理员。database administrator。
CRC 循环冗余校验和。cyclic redundancy checksum。
XML 可扩展标记语言。Extensible Markup Language
ASCII 美国信息交换标准代码。American Standard Code for Information Interchange。
EDM 企业数据模型。enterprise data model。
FSK 事实表代理键。fact table surrogate key。
RDBMS 关系型数据库管理系统。relational database management System
SQL 结构化查询语言。Structured Query Language
ATM 自动取款机。自动柜员机。Automatic Teller Machine。
ROLAP 关系型在线分析处理。relational online analytical process 。
ROM 只读内存。Read Only Memory。
CD 紧凑型光盘。Compact Disc
IT 互联网技术。Internet Technology
DVD 数字视频光盘。Digital Video Disc
IT 信息技术。Information Technology。
ICT 信息和通信技术。Information and Communications Technology。
TCO 总体拥有成本。total cost of ownership。
RAM 随机访问内存。Random Access Memory。
CPU *处理器。Central Processing Unit。
GPU 图形处理器。Graphics Processing Unit
ROI 投资回报率。return on investment
CIF 企业信息工厂。corporate information factory。
DSS 决策支持系统。decision support System
DM 维度建模。dimension modeling。
DDL 数据定义语言。data definition language。
XP 极限编程。extreme programming。
SCRUM  
LWDS-MDM 轻量级下游主数据管理。light weight downstream master data management。
NA 不可用。not available。
NA 不适用。not applicable。
suv 运动型实用汽车。城郊实用汽车。sport utility vehicle,或suburban utility vehicle。
abc 基于活动的成本核算。activity based costing。
UPC 通用产品代码。universal product code。
MMA 媒体市场区域。media market area。
SIC 标准工业分类。
GIS 地理信息系统。geographic information system。
Unicode 统一码
ISP 互联网服务提供商。Internet service provider。
LSA 潜在语义分析。latent semantic analysis。
LSI 潜在语义索引。latent semantic indexing。
CDC 变更数据捕获。change data capture。
P&L 损益
UDF 用户自定义函数。
EII 企业信息集成。Enterprise Information Integration
CRM 顾客关系系统。customer relationship management。
CDI 顾客数据集成。customer data integration。
EAI 企业应用集成。enterprise application integration。
ISBN 国际标准书号(International Standard Book Number)
EIP 企业信息门户。
IAC 跨企业应用协作。inter-enterprise application cooperotion。
VE 虚拟企业
P&PB 即插即用联结件。plug-and-play bondware。
WAWM

广域工作流管理。wide-area workflow management。

RMOP 组织的可重构建模参与者。restructure modeling of oraganization players。
RFID 无限射频识别。radio frequency identification。
TB terabyte
PB petabyte。其上还有EB,ZB,YB等单位
MPP 大规模并行处理。massively parallel processing。
MB MByte
CQL 持续查询语言。continuous query language。
CEP 复杂事件处理。complex event processing。
UQL 用户查询层面。user query level。
UPC 通用产品编号。universal production code 
FAQ 常见问题解答。frequently asked questions。
HDS 异构数据库系统。heteroschedastic database system。
EIS 执行层信息系统。executive information system。