《深入解析数据仓库的四个特点》
一、数据仓库的四个特点
图片来源于网络,如有侵权联系删除
1、面向主题(Subject - Oriented)
- 传统的操作型数据库是面向事务处理的,它主要关注的是日常业务操作中的一个个具体事务,如银行系统中的一笔转账交易、超市系统中的一次商品销售记录等,而数据仓库是面向主题的,主题是一个在较高层次上对数据进行综合、归类和分析的抽象概念。
- 在一个零售企业的数据仓库中,可能有“销售”“库存”“顾客”等主题,以“销售”主题为例,它会将与销售相关的各种数据,如销售日期、销售地点、销售产品、销售人员、销售金额等从不同的数据源(可能包括各个门店的销售系统、线上销售平台等)抽取、转换并集成到一起,这种面向主题的组织方式使得数据仓库能够更好地支持企业的决策分析需求,对于企业管理者来说,他们更关心的是整体的销售趋势、不同地区的销售差异等宏观的分析结果,而不是每一笔单独的销售事务。
- 与面向事务处理不同,面向主题的数据仓库在数据存储结构上会按照主题进行划分,它不会像操作型数据库那样按照业务流程的顺序存储数据,而是围绕主题构建数据模型,这样在进行数据分析时,可以更高效地获取与主题相关的所有数据,避免了在操作型数据库中为获取综合信息而进行复杂的多表关联查询操作。
2、集成性(Integrated)
- 数据仓库的数据来自于多个不同的数据源,这些数据源可能包括企业内部的各种业务系统,如ERP(企业资源计划)系统、CRM(客户关系管理)系统、SCM(供应链管理)系统等,还可能包括外部数据源,如市场调研数据、行业统计数据等。
图片来源于网络,如有侵权联系删除
- 在将这些数据集成到数据仓库的过程中,需要进行一系列的数据清洗、转换和整合操作,不同数据源中的数据可能存在格式不一致的问题,如日期格式,有的数据源可能采用“年 - 月 - 日”的格式,而有的可能采用“月/日/年”的格式;数据编码也可能不同,如产品编码在不同的业务系统中可能有不同的定义,数据仓库需要将这些数据统一成一致的格式和编码体系。
- 还需要解决数据语义上的差异,在一个企业中,“客户”这个概念在不同的业务部门可能有不同的理解,销售部门可能将有过购买行为的个人或企业视为客户,而市场部门可能将所有潜在的购买者都视为客户,在数据仓库中,需要对“客户”这个概念进行明确的定义,并将来自不同部门的数据按照这个统一的定义进行整合,通过集成这些不同来源的数据,数据仓库能够提供企业全面、准确的数据视图,为企业的决策分析提供坚实的数据基础。
3、相对稳定性(Non - Volatile)
- 操作型数据库中的数据是频繁更新的,因为它要反映企业日常业务操作的实时变化,在电商平台的操作型数据库中,商品的库存数量会随着每一次的购买或补货操作而不断变化,用户的订单状态也会随着物流配送等环节不断更新。
- 数据仓库中的数据相对稳定,数据仓库主要是用于分析历史数据,一旦数据被加载到数据仓库中,一般不会进行频繁的修改操作,这并不意味着数据仓库中的数据是一成不变的,随着时间的推移,新的数据会按照一定的周期(如每天、每周或每月)被追加到数据仓库中,以反映企业业务的发展变化。
- 这种相对稳定性使得数据仓库可以更好地支持数据分析和决策制定,企业可以基于数据仓库中的历史销售数据进行销售趋势分析,如果数据仓库中的数据频繁变动,那么这种分析结果的准确性和可靠性将会受到影响,相对稳定的数据环境也有利于数据仓库采用一些特殊的数据存储和管理技术,如数据索引、数据压缩等,以提高数据的查询和分析效率。
图片来源于网络,如有侵权联系删除
4、时变性(Time - Variant)
- 数据仓库中的数据具有明显的时间特征,它会随着时间不断地积累数据,以反映企业业务的发展历程,企业的销售数据会按照时间顺序(如按日、月、年)被存储在数据仓库中。
- 数据仓库中的数据会记录不同时间点或时间段的业务状态,这使得企业可以进行时间序列分析,如分析销售额在不同季度的变化情况、顾客购买行为在不同年份的演变等,数据仓库还可以通过对历史数据的分析来预测未来的业务趋势。
- 为了体现数据的时变性,数据仓库通常会采用一些特殊的时间相关的技术和概念,会有时间维度表,用于记录时间相关的信息,如日期、月份、季度、年份等,并且在数据仓库的其他数据表中会通过与时间维度表的关联来体现数据的时间属性,这样,在进行数据分析时,可以方便地按照时间维度对数据进行切片、切块、钻取等操作,以满足不同的决策分析需求。
评论列表