《数据仓库与数据挖掘期末考试要点解析》
一、数据仓库相关内容
(一)数据仓库的概念与特点
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1、面向主题
图片来源于网络,如有侵权联系删除
- 与传统数据库面向应用不同,数据仓库围绕企业中的某个主题(如销售、客户等)来组织数据,在销售主题下,会整合来自订单系统、库存系统等与销售相关的数据,而不是按照不同的业务应用系统来分散存储数据。
2、集成性
- 数据仓库的数据来自多个数据源,这些数据源的数据格式、编码等可能不同,在集成过程中,需要进行数据清洗、转换等操作,从不同地区的销售系统中获取数据,有的地区可能以人民币为单位,有的地区可能以美元为单位,需要将其统一转换为一种货币单位。
3、相对稳定性
- 数据仓库中的数据主要用于分析决策,一旦数据进入数据仓库,一般不会进行频繁的修改操作,它反映的是企业的历史数据情况,例如企业历年的销售业绩数据等。
4、反映历史变化
- 数据仓库会记录数据随时间的变化情况,通过时间戳等方式,能够分析数据在不同时间段的状态,分析某产品在不同季度的销售趋势。
(二)数据仓库的体系结构
1、数据源层
- 这是数据仓库的数据来源,包括企业内部的各种业务系统(如ERP系统、CRM系统等)以及外部数据源(如市场调研数据等)。
2、数据获取层
- 负责从数据源中抽取、转换和加载(ETL)数据到数据仓库,ETL过程是数据仓库构建的关键环节,抽取操作要确定从哪些数据源获取数据,转换操作包括数据格式转换、数据清洗(去除噪声数据、重复数据等)、数据集成等,加载则是将处理后的数据存入数据仓库。
3、数据存储层
- 包含数据仓库的数据库,按照特定的数据模型(如星型模型、雪花模型等)存储数据,星型模型以事实表为中心,周围连接多个维度表,这种模型在查询性能上有优势;雪花模型是对星型模型的扩展,将维度表进一步规范化,减少数据冗余,但查询复杂度可能会增加。
4、数据访问层
图片来源于网络,如有侵权联系删除
- 为用户提供查询、分析数据仓库数据的接口,用户可以通过报表工具、OLAP(联机分析处理)工具等访问数据仓库,获取决策支持信息。
二、数据挖掘相关内容
(一)数据挖掘的定义与任务
1、定义
- 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2、任务
- 关联规则挖掘:例如在超市的购物篮分析中,发现顾客购买面包和牛奶之间存在关联,即顾客购买面包时很可能也会购买牛奶,通过分析销售数据中的频繁项集,可以找出这样的关联规则,这有助于商家进行商品摆放和促销策略制定。
- 分类任务:将数据对象划分到不同的类别中,在银行贷款风险评估中,根据客户的年龄、收入、信用记录等特征将客户分为高风险、中风险和低风险三类,常用的分类算法有决策树算法(如C4.5算法)、支持向量机等,决策树算法通过构建树状结构,根据不同的属性特征进行分支,最终将数据分类;支持向量机则是通过寻找一个超平面将不同类别的数据分开。
- 聚类任务:将数据对象按照相似性聚集成不同的簇,对客户进行聚类分析,根据客户的消费行为、消费金额等特征将客户分为不同的群体,如高消费频繁客户群、低消费偶尔客户群等,K - means聚类算法是一种常用的聚类算法,它通过随机选择K个初始聚类中心,然后不断迭代,将数据点分配到距离最近的聚类中心所属的簇中,并更新聚类中心,直到聚类中心不再发生明显变化。
(二)数据挖掘的流程
1、数据收集
- 确定挖掘的目标后,从各种数据源收集相关数据,数据源可能包括企业内部数据库、文件系统、互联网数据等,要进行电商用户购买行为挖掘,需要收集用户的注册信息、购买记录、浏览记录等数据。
2、数据预处理
- 对收集到的数据进行清洗、集成、转换和归约等操作,清洗数据是为了去除噪声、缺失值和异常值;集成是将来自多个数据源的数据进行合并;转换包括数据标准化、离散化等操作,例如将年龄等连续变量进行离散化处理,归约则是在尽可能保持数据完整性的前提下减少数据量,提高挖掘效率。
3、数据挖掘算法选择与模型构建
图片来源于网络,如有侵权联系删除
- 根据挖掘任务选择合适的算法,如进行预测分析时,根据数据的特点(如线性关系、非线性关系等)选择线性回归算法或神经网络算法等,然后使用训练数据构建数据挖掘模型。
4、模型评估与优化
- 使用测试数据对构建的模型进行评估,评估指标根据任务不同而有所不同,例如在分类任务中,可以使用准确率、召回率、F1值等指标,如果模型效果不理想,则需要对模型进行优化,优化的方法包括调整算法参数、更换算法、增加或减少特征等。
5、知识表示与应用
- 将挖掘得到的知识以合适的方式表示出来,如规则形式、可视化图表等,然后将这些知识应用到实际的业务场景中,如将客户分类结果用于精准营销,为不同类别的客户提供个性化的产品推荐和促销活动。
三、数据仓库与数据挖掘的关系
(一)数据仓库为数据挖掘提供数据基础
1、数据仓库中的数据经过清洗、集成等处理,数据质量较高,适合作为数据挖掘的数据源,数据仓库中关于客户的完整、准确的数据,能够为客户细分、客户流失预测等数据挖掘任务提供可靠的数据支持。
2、数据仓库的结构便于数据挖掘算法的应用,数据仓库按照主题组织数据,并且具有特定的数据模型,数据挖掘算法可以更容易地在这种结构上进行操作,在星型模型的数据仓库中,进行关联规则挖掘时,可以方便地在事实表和维度表之间寻找关联关系。
(二)数据挖掘为数据仓库提供增值服务
1、通过数据挖掘,可以发现数据仓库中数据的潜在关系和模式,为数据仓库的进一步优化提供依据,数据挖掘发现某些数据属性之间存在强关联,这可以促使数据仓库在数据组织和存储上进行调整,以便更好地反映这些关系。
2、数据挖掘的结果可以反馈到数据仓库中,丰富数据仓库的内容,数据挖掘得到的客户细分结果可以作为新的维度数据加入到数据仓库中,从而为企业的决策分析提供更多的视角。
数据仓库与数据挖掘在企业的决策支持系统中发挥着不可或缺的作用,它们相互依存、相互促进,共同为企业从数据中获取价值提供技术支持。
评论列表