1、数据仓库分层分几层?做哪些事?
(1)ODS层
是存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理(2)DWD层
a、对ODS层数据进行处理(去除空值、脏数据、超过极限范围的数据、脱敏等)
b、保留明细数据,一行信息代表一次业务行为,例如:一次下单
(3)DWS层
a、以DWD层为基础,按天进行轻度汇总。
b、一行信息代表一个主题对象一天汇总行为。例如一个用户一天下单的次数
(4)DWT层
a、以DWS为基础,对数据进行累积汇总。
b、一行信息代表一个主题对象的累积行为。例如一个用户从注册那天开始至今一共下了多少次单
(5)ADS层
为各种统计报表提供数据2、数据仓库为什么要分层?
(1)把复杂问题简单化
将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题
(2)减少重复开发
规范数据分层,通过中间层数据,能够减少极大的重复计算,增加以及计算结果的复用性(3)隔离原始数据
无论是数据的异常还说数据的脱感性,使真实数据与统计数据解耦开3、数据集市与数据仓库概念
数据集市:
(1)是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据
(2)因此是部门级的,一般只能为某个局部范围内的管理人员服务
数据仓库:
是企业级的,能为整个企业各个部门的运行提供决策支持手段4、数仓理论
4.1、范式理论
概念
范式可以理解为设计一张数据表的表结构,符合的标准级别、规范和要求优点
采用范式,可以降低数据的冗余性
缺点
是获取数据时,需要通过Join拼接出最后的数据范式分类
(1)第一范式(1NF),核心原则就是:属性不可切割
(2)第二范式(2NF),核心原则:不能存在“部分函数依赖”
(3)第三范式(3NF),核心原则:不能存在传递函数依赖
(4)巴斯-科德范式(BCNF)
(5)第四范式(4NF)
(6)第五范式(5NF)
4.2、函数依赖
(1)完全函数依赖
(2)部分函数依赖
(3)传递函数依赖
5、关系建模与维度建模
当今的数据处理大致可以分成(两大类)
(1)联机事务处理OLTP(on-linetransactionprocessing)
(2)联机分析处理OLAP(On-LineAnalyticalProcessing
联机事务处理OLTP与联机分析处理OLAP的区别
对比属性
OLTP
OLAP
读特性
每次查询只返回少量记录
对大量记录进行汇总
写特性
随机、低延时写入用户的输入
批量导入
使用场景
用户,JavaEE项目
内部分析师,为决策提供支持
数据表征
最新数据状态
随时间变化的历史状态
数据规模
GB
TB到PB
5.1、关系建模
(1)严格遵循第三范式(3NF)
关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的(2)较为松散、零碎,物理表数量多,而数据冗余程度低
(3)由于数据分布于众多的表中,这些数据可以更为灵活地被应用,功能性较强
5.2、维度建模
(1)主要应用于OLAP系统中,通常以某一个事实表为中心进行表的组织
(2)主要面向业务,特征是可能存在数据的冗余,但是能方便的得到数据
数仓建模方式(推荐):采用维度模型建模,把相关各种表整理成两种
6、维度表和事实表(重点)
6.1、维度表
概念
一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。
例如:用户、商品、日期、地区等
维表的特征
维表的范围很宽(具有多个属性、列比较多)
跟事实表相比,行数相对较小:通常10万条
内容相对固定:编码表
6.2、事实表
概念
事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)
术语说明
“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等)
例如,年5月21日,宋宋老师在京东花了块钱买了一瓶海狗人参丸
维度表:时间、用户、商品、商家
事实表:块钱、一瓶
注意:每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键
事实表的特征
(1)非常的大
(2)内容相对的窄:列数较少(主要是外键id和度量值)
(3)经常发生变化,每天会新增加很多
三种类型事实表
(1)事务型事实表
a、以每个事务或事件为单位,例如一个销售订单记录,一笔支付记录等,作为事实表里的一行数据
b、一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新
(2)周期型快照事实表
a、不会保留所有数据,只保留固定时间间隔的数据,例如每天或者每月的销售额,或每月的账户余额等
b、例如购物车,有加减商品,随时都有可能变化,但是我们更关心每天结束时这里面有多少商品,方便我们后期统计分析
(3)累积型快照事实表
a、用于跟踪业务事实的变化。例如,数据仓库中可能需要累积或者存储订单从下订单开始,到订单商品被打包、运输、和签收的各个业务阶段的时间点数据来跟踪订单声明周期的进展情况
b、当这个业务过程进行时,事实表的记录也要不断更新
7、维度模型分类
7.1、三种模型
(1)星型模型
标准的星型模型维度只有一层
(2)雪花模型
比较靠近3NF,但是无法完全遵守,因为遵循3NF的性能成本太高
(3)星座模型
基于多个事实表(基本上是很多数据仓库的常态)7.2、星座模型与星型、雪花模型会不会发生冲突?
(1)因为很多数据仓库都是多个事实表的
(2)所以星座不星座只反映是否有多个事实表,他们之间是否共享一些维度表
(3)所以星座模型并不和前两个模型冲突
7.3、模型的选择
(1)目前实际企业开发中,不会绝对选择一种,根据情况灵活组合,甚至并存(一层维度和多层维度都保存)
(2)整体来看,更倾向于维度更少的星型模型。尤其是Hadoop体系,减少Join就是减少Shuffle,性能差距很大
知其所以然、知其所以必然,知其然而不知其所以然;蒙惠者虽知其然,而未必知其所以然;也这是我们从学习实践中得出的深切体会!
预览时标签不可点收录于话题#个上一篇下一篇