《解析数据仓库特征:甄别不属于其特征的元素》
图片来源于网络,如有侵权联系删除
一、数据仓库的典型特征
1、面向主题
- 数据仓库围绕特定的主题进行组织,在一个零售企业的数据仓库中,可能会有“销售”“库存”“顾客”等主题,每个主题相关的数据被整合在一起,与传统的操作型数据库以业务流程为中心的组织方式不同,对于“销售”主题,会包含销售日期、销售金额、销售渠道、销售人员等相关数据,这种面向主题的设计有助于从不同的业务角度进行分析,为企业决策提供有针对性的数据支持。
2、集成性
- 数据仓库的数据来源于多个数据源,包括不同的业务系统、外部数据等,这些数据在进入数据仓库之前需要进行清洗、转换和集成,企业可能有不同地区的销售系统,各个系统中对于销售数据的记录格式、编码方式可能不同,在数据仓库中,要将这些数据统一起来,如统一日期格式、统一产品编码等,以确保数据的一致性和准确性,集成后的数据能够提供一个全面的企业数据视图,避免了数据的分散和不一致性带来的分析困难。
3、时变性
图片来源于网络,如有侵权联系删除
- 数据仓库中的数据会随着时间不断更新,以反映企业业务的发展变化,它存储了大量的历史数据,并且会定期或不定期地加载新的数据,企业每个月的销售数据都会被加载到数据仓库中,这样就可以进行历史销售趋势分析,数据仓库中的数据结构和内容也可能会随着企业业务需求的变化而进行调整,比如增加新的分析维度或者修改数据的粒度等。
4、非易失性
- 数据仓库中的数据主要用于分析目的,一旦数据被加载进入数据仓库,通常不会被修改或删除(除了一些特殊的情况,如数据错误修正),这与操作型数据库不同,操作型数据库需要频繁地进行数据的增删改操作以支持业务流程,数据仓库中的数据相对稳定,这种非易失性保证了分析结果的一致性和可重复性。
二、不属于数据仓库特征的情况分析
1、实时事务处理
- 数据仓库不是为实时事务处理而设计的,操作型数据库擅长处理实时的事务,如在线订单处理、库存实时更新等,在电商平台上,当顾客下单时,操作型数据库需要立即处理订单信息,更新库存,处理支付等事务,而数据仓库的重点是数据分析,数据的加载和更新往往是批量进行的,例如每天或者每周进行一次数据加载,它不需要像操作型数据库那样在毫秒级或者秒级响应事务请求,如果将实时事务处理作为数据仓库的特征,那就违背了数据仓库构建的初衷,它的架构和设计是为了高效地存储和分析大量历史数据,而不是快速处理实时业务操作。
图片来源于网络,如有侵权联系删除
2、频繁的数据更新操作(非批量)
- 如前所述,数据仓库中的数据更新通常是批量的,如果数据仓库像操作型数据库一样频繁地进行单个数据记录的更新操作,会严重影响其性能,在一个银行的数据仓库中,不会在客户每进行一次交易时就立即更新数据仓库中的数据,而是会在一天结束后,将当天所有的交易数据进行汇总、清洗后批量加载到数据仓库,频繁的非批量数据更新不符合数据仓库的设计理念,它更关注数据的整合和分析效率,而不是实时的数据更新速度。
3、数据结构的高度动态性(频繁变更结构)
- 虽然数据仓库的数据结构会随着企业业务需求的发展而变化,但这种变化相对操作型数据库来说是比较缓慢的,操作型数据库可能会因为业务流程的频繁调整而频繁改变数据结构,比如增加新的字段来满足新的业务规则,而数据仓库的数据结构一旦确定,会在较长时间内保持相对稳定,如果数据仓库的数据结构频繁变更,会导致数据加载、数据集成等一系列复杂的问题,并且会影响基于数据仓库的分析应用的稳定性,因为许多分析工具和应用是基于特定的数据结构进行开发的,如果结构频繁变动,这些工具和应用就需要不断地重新开发和调整。
评论列表