《探秘数据仓库:数据仓库中的数据构成全解析》
一、数据仓库概述
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,它主要由数据获取、数据存储、数据管理和数据访问四个部分构成,而每个部分都包含着多种类型的数据。
二、数据获取部分的数据
1、数据源中的原始数据
图片来源于网络,如有侵权联系删除
- 来自企业内部的操作型系统,如企业的事务处理系统(TPS),在一家电商企业中,订单处理系统每天会产生大量的订单数据,包括订单号、客户信息(姓名、地址、联系方式等)、商品信息(商品编号、名称、价格等)、订单日期、支付状态等,这些数据以原始的形式存在于操作型数据库中,是数据仓库数据的重要来源。
- 企业外部数据源也不容忽视,以市场调研公司为例,它可能会从外部获取行业报告数据,这些数据包含了市场规模、竞争对手信息、行业趋势等,对于一个电商企业来说,外部的物流数据,如运输成本、运输时间等,也是有价值的数据来源。
2、抽取、转换和加载(ETL)过程中的数据
- 在ETL过程中,会产生日志数据,这些日志记录了数据抽取的源、抽取的时间、转换规则的应用情况以及数据加载的目标位置等信息,当从多个不同的数据库中抽取数据时,ETL日志会显示从哪个数据库的哪个表抽取了多少条数据,在转换过程中是否有数据格式的调整,以及最终加载到数据仓库的哪个表结构中。
- 临时存储的数据,在数据从源系统抽取出来后,在进行转换之前,可能会先临时存储在一个中间区域,这个区域的数据是原始数据经过初步处理后的状态,例如数据可能已经按照某种规则进行了初步的清洗,去除了一些明显的错误数据,如格式不符合要求的数据。
三、数据存储部分的数据
1、基础事实表数据
- 事实表存储着企业运营中的实际业务数据,以销售业务为例,销售事实表会包含销售额、销售量、销售日期等数据,在电信企业中,通话事实表会有通话时长、通话费用、通话起始时间等数据,这些数据是对企业业务活动的量化记录,是数据仓库进行分析的核心数据。
2、维度表数据
图片来源于网络,如有侵权联系删除
- 维度表用于描述事实表中的数据,在销售业务中,与销售事实表相关的维度表可能有客户维度表,其中包含客户的基本信息如年龄、性别、地域等;产品维度表包含产品的类别、品牌、规格等信息;时间维度表包含年、季、月、日等时间信息,这些维度数据为分析事实数据提供了丰富的上下文,使得可以从不同的角度对事实数据进行分析,如按客户地域分析销售额,按产品品牌分析销售量等。
3、汇总数据
- 为了提高查询性能,数据仓库中会存储一些汇总数据,按月份汇总的销售额、按地区汇总的销售量等,这些汇总数据是对原始事实数据按照一定的规则进行聚合计算得到的,在进行高层决策分析时,直接查询汇总数据可以大大减少查询时间,提高决策效率。
四、数据管理部分的数据
1、元数据
- 元数据是关于数据的数据,它包括技术元数据,如数据仓库中的表结构定义、字段类型、数据来源等信息,一个数据仓库中的销售数据表,元数据会描述表中有哪些字段,如销售额字段是数值型,销售日期字段是日期型,以及这个表的数据是从哪个源系统抽取过来的。
- 业务元数据则描述数据的业务含义,对于销售数据表中的销售额字段,业务元数据会解释这个销售额是含税还是不含税,是按照什么汇率计算的(如果涉及跨境销售)等,元数据对于数据仓库的管理、维护和数据的正确使用非常重要。
2、数据质量监控数据
- 数据质量监控过程中会产生数据质量指标数据,数据的准确性指标,通过与已知的准确数据进行对比,计算出数据的准确程度,数据的完整性指标,统计每个表中数据的完整程度,如某个表中应该有100条记录,但实际只有80条,完整性为80%,这些数据质量监控数据可以帮助数据仓库管理员及时发现数据存在的问题并进行修复。
图片来源于网络,如有侵权联系删除
五、数据访问部分的数据
1、查询结果数据
- 当用户通过报表工具、查询工具等对数据仓库进行查询时,会产生查询结果数据,市场部门的用户查询按地区和产品类别划分的销售趋势数据,查询结果会以表格或者图形的形式呈现出来,这些查询结果数据可能会被保存下来,以便用户后续再次查看或者进行进一步的分析。
2、缓存数据
- 为了提高数据访问的速度,数据仓库系统可能会使用缓存技术,缓存数据是根据用户的查询模式和频率,将经常被查询的数据存储在缓存中,对于每天都会被查询的销售汇总数据,系统会将其缓存起来,当用户再次查询时,可以直接从缓存中获取数据,而不需要重新从存储层读取和计算,从而提高了数据访问的效率。
数据仓库中的数据是一个丰富多样的体系,各个部分的数据相互关联、相互作用,共同为企业的决策支持提供强大的基础。
评论列表