本文目录导读:
深入探究四层结构
图片来源于网络,如有侵权联系删除
ODS层(操作数据存储层)
1、源数据存储表
- 在ODS层,主要存储的是从各个业务系统直接抽取过来的原始数据,这些数据基本保持着与源业务系统相同的结构和内容,在一个电商业务的数据仓库中,ODS层会有来自订单系统的订单表,这个表包含了订单编号、下单时间、用户ID、商品ID、订单金额等字段,这些字段的定义和在订单系统中的定义几乎完全一致,目的是尽可能完整地记录原始业务数据的每一个细节。
- 对于日志数据也是如此,以网站访问日志为例,ODS层的日志表会存储诸如访问IP地址、访问时间、访问的页面URL、用户代理(User - Agent)等原始信息,这些数据的存储形式通常是按照日志文件的原始格式进行解析和存储的,没有经过过多的加工处理。
2、增量与全量存储表
- ODS层还会区分增量表和全量表,全量表是在特定时间点对业务数据的完整备份,每天凌晨对用户信息表进行全量抽取,这个全量的用户信息表包含了所有注册用户的详细信息,如用户名、密码(通常是经过加密存储)、注册时间、用户等级等。
- 增量表则只存储特定时间段内发生变化的数据,继续以电商订单为例,可能每15分钟会抽取一次新产生的订单数据存储到增量订单表中,这样做的好处是,既能够及时获取最新的业务数据,又能够在后续的数据处理中,根据全量数据和增量数据进行数据的整合,满足不同的业务分析需求。
DWD层(明细数据层)
1、清洗转换后的基础表
- DWD层是对ODS层数据进行清洗和转换后的存储层,在这一层,会对ODS层的原始数据进行一些初步的处理,在ODS层的订单表中可能存在一些数据质量问题,如订单金额字段中偶尔会出现异常的负值(可能是由于数据录入错误或者系统故障),在DWD层的订单明细表里,会对这样的异常数据进行修正,将负值订单金额按照业务规则调整为合理的值或者标记为异常数据进行特殊处理。
图片来源于网络,如有侵权联系删除
- DWD层会对数据进行标准化处理,对于日期字段,ODS层可能存在多种日期格式,在DWD层会统一将日期格式转换为标准的“YYYY - MM - DD”格式,DWD层还会对一些编码进行转换,例如将商品ID的编码从业务系统中的内部编码转换为数据仓库中统一的编码体系,以便于后续的关联分析。
2、维度退化表
- 这一层还会存储维度退化表,以销售业务为例,在DWD层可能会有一个销售明细事实表,同时会有一个包含地区信息的维度退化表,这个维度退化表将地区维度的一些关键信息(如地区ID、地区名称、地区级别等)直接合并到销售明细事实表中,这样做的目的是为了减少数据关联的复杂度,提高查询性能,当进行按地区统计销售数据等分析时,可以直接从销售明细事实表中获取地区相关信息,而不需要再进行额外的关联操作。
DWS层(汇总数据层)
1、轻度汇总表
- DWS层主要存储轻度汇总的数据表,在电商业务中,会有按日汇总的订单表,这个表不再像DWD层的订单明细表那样包含每一个订单的详细信息,而是对订单进行了一定程度的汇总,它可能包含日期、总订单数、总订单金额、不同支付方式的订单数量和金额等汇总信息,这样的轻度汇总表能够满足一些常见的业务分析需求,如查看每日的销售总体情况、不同支付方式的占比等。
- 对于用户行为数据,DWS层可能会有按用户分组的行为汇总表,统计每个用户在一天内的页面访问次数、停留时间总和等信息,这些汇总表的存在使得在进行业务分析时,可以快速获取到高层次的统计数据,而不需要对大量的明细数据进行复杂的计算。
2、多维度汇总表
- 除了单维度的轻度汇总表,DWS层还会有涉及多维度的汇总表,以销售业务为例,可能会有一个按地区、按商品类别、按时间(如月度)的销售汇总表,这个表中的数据是对不同地区、不同商品类别在每个月的销售数量、销售金额等信息的汇总,这种多维度的汇总表为复杂的业务分析提供了基础,例如分析不同地区不同商品类别的销售趋势、季节性变化等。
图片来源于网络,如有侵权联系删除
ADS层(应用数据层)
1、特定业务需求表
- ADS层是为了满足特定的业务应用需求而设计的,在一个电商企业中,为了支持营销部门的活动策划,ADS层可能会有一个针对高价值用户的潜在购买倾向分析表,这个表是根据DWS层和DWD层的数据进行深度挖掘和分析得到的,它包含了高价值用户的特征(如过去一年的购买金额、购买频率、购买商品的种类等)以及基于这些特征分析出的潜在购买商品列表等信息。
- 对于财务部门,ADS层可能会有一个专门用于财务报表生成的表,这个表按照财务部门的要求,从DWS层的汇总数据中提取相关数据,并进行进一步的计算和整理,如计算利润、成本、毛利率等财务指标,并且按照特定的财务报表格式进行存储,以便财务人员能够直接使用这些数据生成各种财务报表。
2、报表展示表
- ADS层还存储着用于报表展示的数据表,在企业的决策支持系统中,需要向管理层展示各种业务报表,如销售业绩报表、用户增长报表等,ADS层的报表展示表就是为这些报表提供数据支持的,这些表的结构和内容是根据报表的具体需求设计的,通常会包含一些经过计算和格式化后的指标数据,并且以一种易于查询和展示的方式进行存储,销售业绩报表展示表可能会有按季度、按销售区域、按产品线排列的销售金额、销售数量、同比和环比增长率等数据,这些数据经过精心组织和处理,能够直接被报表工具读取并以直观的图表或表格形式展示给管理层。
评论列表