《解析数据仓库:不具备的特点》
一、数据仓库简介
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,它从多个数据源中获取数据,并经过清洗、转换、集成等操作后存储起来,以便为企业提供决策支持、数据分析等功能。
图片来源于网络,如有侵权联系删除
二、数据仓库主要特点不包括的方面
1、事务处理能力
- 传统的事务处理系统(如数据库管理系统中的联机事务处理 - OLTP)侧重于处理日常的业务操作,如银行的转账、订单的处理等,这些操作要求快速响应、高并发处理能力和数据的即时更新,数据仓库并不具备这样的事务处理特性。
- 在数据仓库中,数据的更新频率相对较低,主要是为了反映历史数据的积累和变化,企业的数据仓库可能每天或每周从各个业务系统中抽取数据并进行整合,而不是像OLTP系统那样实时处理每一笔交易,它更关注的是对大量历史数据进行分析,以发现趋势、模式等,而不是对个别事务的即时处理。
2、实时数据更新
- 虽然有些现代数据仓库技术在不断提高数据更新的时效性,数据仓库并不像实时流处理系统那样具有即时更新数据的特点,实时流处理系统可以在数据产生的瞬间就对其进行处理并反映结果,例如在监控网络流量或者传感器数据的实时分析场景中。
图片来源于网络,如有侵权联系删除
- 数据仓库的数据更新通常是批量进行的,这是因为数据仓库的数据来源广泛,需要对来自不同系统的数据进行清洗、转换和集成等复杂操作,一家大型零售企业的数据仓库可能要从销售点系统、库存管理系统、客户关系管理系统等多个系统中抽取数据,这个过程需要时间来确保数据的准确性和一致性,所以难以做到实时更新。
3、面向操作应用
- 数据仓库不是为了直接支持操作层面的业务应用而设计的,操作应用通常需要直接与用户交互,快速响应用户的请求并处理业务逻辑,电商平台的购物车功能或者酒店预订系统的客房查询和预订功能,这些都是面向操作的应用。
- 数据仓库是为了满足企业决策层、管理层和分析人员对数据的需求,是面向分析主题的,它提供的数据是经过汇总、聚合等处理后的结果,用于回答诸如“过去一年销售趋势如何”“哪些客户群体对利润贡献最大”等分析性问题,而不是处理诸如“下一个订单如何处理”这样的操作性问题。
4、简单的数据结构
- 与一些简单的数据库应用中相对单一、规整的数据结构不同,数据仓库的数据结构往往比较复杂,数据仓库需要容纳来自多个数据源的数据,这些数据源的数据结构可能千差万别。
图片来源于网络,如有侵权联系删除
- 在整合这些数据时,为了满足不同的分析需求,数据仓库会构建星型模型、雪花模型等复杂的数据模型,在一个销售数据仓库中,可能会有包含销售事实表、产品维度表、时间维度表、客户维度表等多表关联的星型模型,这种复杂的数据结构是为了更好地支持多维度的数据分析,而不是简单的数据存储和查询,所以它不具备简单的数据结构这一特点。
5、单一数据源依赖
- 数据仓库的构建目的决定了它不可能依赖单一数据源,企业在进行决策分析时,需要综合各个方面的数据信息。
- 一个企业的数据仓库可能会整合来自财务系统、生产系统、销售系统、人力资源系统等多个部门的数据源,这与一些小型、特定功能的数据库应用只依赖单一数据源(如一个简单的个人笔记数据库只依赖用户输入的数据)有很大区别,通过整合多数据源,数据仓库能够提供全面、完整的企业数据视图,用于深入的分析和决策支持。
数据仓库具有其独特的性质,明确其不包括的特点有助于更好地理解数据仓库的定位和功能,以便在企业的信息技术架构中正确地构建和应用数据仓库。
评论列表