《追溯数据仓库定义的提出者:信息工程学家的伟大贡献》
图片来源于网络,如有侵权联系删除
一、数据仓库概念的诞生背景
在20世纪80年代末至90年代初,企业面临着日益增长的数据量以及对数据进行有效管理和利用的迫切需求,随着计算机技术的发展,企业各个部门都在各自的业务系统中积累了大量的数据,例如销售部门有销售记录数据、财务部门有财务报表数据等,这些数据分散在不同的系统中,格式不统一,难以进行全面的分析以支持企业的决策制定,这种背景下,数据仓库的概念应运而生。
二、数据仓库的定义及其内涵
数据仓库是一个面向主题的(Subject - Oriented)、集成的(Integrated)、相对稳定的(Non - Volatile)、反映历史变化(Time - Variant)的数据集合,用于支持管理决策。
1、面向主题
- 传统的操作型数据库是面向事务处理的,例如记录一笔销售订单的交易过程,而数据仓库则是围绕企业的主题来组织数据,如销售主题,这个销售主题相关的数据可能来自多个业务系统,包括销售订单、客户信息、产品信息等,它以主题为核心,将不同来源的数据整合在一起,方便从特定的业务视角进行分析,例如分析不同地区、不同时间段的销售趋势等。
图片来源于网络,如有侵权联系删除
2、集成
- 数据仓库中的数据来源于企业内多个不同的数据源,这些数据源的数据在格式、编码、语义等方面可能存在差异,在将数据抽取到数据仓库时,需要进行数据的清洗、转换和集成,不同系统中对客户性别的表示可能不同,有的用“M”和“F”,有的用“男”和“女”,在集成到数据仓库时就需要统一转换为一种标准的表示形式。
3、相对稳定
- 与操作型数据库频繁的插入、更新和删除操作不同,数据仓库主要是用于查询和分析,一旦数据进入数据仓库,通常不会被频繁修改,这是因为数据仓库存储的是历史数据的快照,它反映了企业在某个特定时间点或时间段内的业务状态,企业每个月的销售数据汇总进入数据仓库后,不会因为个别销售订单的后期调整而频繁修改数据仓库中的月度销售汇总数据。
4、反映历史变化
- 数据仓库能够记录企业数据随时间的变化情况,通过对不同时间点的数据进行存储和分析,可以发现业务的发展趋势,可以通过分析过去几年的销售数据,了解产品的销售增长或下降趋势,以及不同季节对销售的影响等。
图片来源于网络,如有侵权联系删除
三、数据仓库定义的提出者——比尔·恩门(Bill Inmon)
比尔·恩门被公认为数据仓库概念的创始人,他在1990年出版的《Building the Data Warehouse》一书中首次对数据仓库进行了系统的定义和阐述,恩门在信息技术领域有着丰富的经验和深入的研究。
他提出的数据仓库概念为企业的数据管理和决策支持带来了全新的思路,在恩门的理念推动下,企业开始重视构建数据仓库来整合企业内部的数据资源,许多企业开始投入资源进行数据仓库的建设,从各个业务系统中抽取数据,经过转换和集成后存储到数据仓库中。
恩门的贡献不仅仅在于定义了数据仓库的概念,还在于他为数据仓库的构建和管理提供了一系列的方法和原则,他强调数据仓库的设计应该从企业的整体需求出发,以支持企业的战略决策为目标,他也提出了数据仓库建设过程中的一些关键技术和流程,如数据抽取、转换和加载(ETL)等。
随着时间的推移,数据仓库技术不断发展和演进,在恩门的基础上,其他学者和从业者也不断对数据仓库进行改进和扩展,数据仓库的架构从最初的单一架构发展到了多层架构,包括操作型数据存储(ODS)、数据集市等概念的出现,数据仓库与新兴技术如大数据、云计算等也开始融合,以适应企业不断变化的需求,但无论数据仓库技术如何发展,比尔·恩门对数据仓库概念的开创性定义始终是这一领域发展的基石。
评论列表