本文目录导读:
《数据分析与数据挖掘期末速成指南》
图片来源于网络,如有侵权联系删除
数据分析与数据挖掘基础概念
1、数据分析
- 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用,在商业领域,企业可以通过分析销售数据来了解产品的销售趋势,如果一家服装企业分析过去一年的销售数据,发现夏季的短袖T恤在6 - 7月销售量最高,这就是通过对销售数据的分析得出的结果,数据分析的基本步骤包括数据收集、数据清理、数据探索、数据建模和结果解释等。
2、数据挖掘
- 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,比如在医疗领域,通过挖掘大量的病历数据,可以发现某些疾病的发病规律与患者的年龄、性别、生活习惯等因素之间的关系,数据挖掘技术包括分类(如决策树分类)、聚类(如K - Means聚类)、关联规则挖掘(如Apriori算法挖掘购物篮中的商品关联)等。
数据收集与预处理
1、数据收集
- 数据来源多种多样,常见的有数据库、文件系统、网络爬虫等,要研究社交媒体上用户对某一产品的评价,就可以使用网络爬虫从微博、抖音等平台爬取相关的用户评论数据,在收集数据时,要注意数据的合法性和道德性,确保遵守相关法律法规和平台规定。
2、数据预处理
- 数据预处理是数据分析与数据挖掘中非常重要的环节,因为原始数据往往存在不完整、不一致、有噪声等问题。
- 数据清理:处理缺失值和异常值,对于缺失值,可以采用删除含有缺失值的记录、填充(如用均值、中位数填充数值型缺失值,用众数填充分类型缺失值)等方法,异常值可能是由于数据录入错误或者特殊情况导致的,可以通过统计方法(如3σ原则)或者可视化方法(如箱线图)来识别并处理。
- 数据集成:当数据来自多个数据源时,需要将这些数据集成到一起,这可能涉及到实体识别(在合并两个客户数据表时,要确保识别出相同的客户)和属性匹配(确保不同数据源中表示相同概念的属性能够正确匹配)等操作。
- 数据变换:包括对数据进行标准化、归一化等操作,标准化可以将数据转换为均值为0,标准差为1的分布,如Z - score标准化公式:\(x'=\frac{x - \mu}{\sigma}\),(x\)是原始数据,\(\mu\)是均值,\(\sigma\)是标准差,归一化可以将数据映射到\([0,1]\)区间,例如最小 - 最大归一化公式:\(x'=\frac{x - min(x)}{max(x)-min(x)}\)。
数据分析与数据挖掘常用算法
1、分类算法
- 决策树:决策树是一种树形结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,在判断一个水果是苹果还是橙子时,可以根据颜色、形状等属性构建决策树,如果颜色是红色且形状是圆形,那么可能是苹果。
图片来源于网络,如有侵权联系删除
- 朴素贝叶斯:基于贝叶斯定理,假设特征之间相互独立,在文本分类中应用广泛,比如判断一封邮件是垃圾邮件还是正常邮件,它通过计算邮件中各个单词在垃圾邮件和正常邮件中出现的概率,来确定邮件属于哪一类。
2、聚类算法
- K - Means聚类:该算法将数据点划分为\(K\)个簇,首先随机选择\(K\)个初始聚类中心,然后将每个数据点分配到距离其最近的聚类中心所在的簇,再重新计算每个簇的中心,不断迭代直到聚类中心不再发生变化或者达到预设的迭代次数,在市场细分中,可以根据客户的消费行为、年龄、收入等特征,使用K - Means聚类将客户划分为不同的群体,以便企业制定针对性的营销策略。
模型评估与选择
1、分类模型评估指标
- 准确率:表示预测正确的样本数占总样本数的比例,计算公式为\(Accuracy=\frac{TP + TN}{TP+FP+TN+FN}\),(TP\)(True Positive)表示真正例,\(TN\)(True Negative)表示真负例,\(FP\)(False Positive)表示假正例,\(FN\)(False Negative)表示假负例。
- 召回率:也称为查全率,是指预测出的正例占实际正例的比例,计算公式为\(Recall=\frac{TP}{TP + FN}\),在疾病诊断中,召回率高意味着能够尽可能多地发现患病的患者。
- F1 - score:是准确率和召回率的调和平均数,\(F1=\frac{2\times Precision\times Recall}{Precision + Recall}\),它综合考虑了准确率和召回率的平衡。
2、聚类模型评估指标
- 轮廓系数:用于衡量聚类的紧密性和分离性,其取值范围是\([ - 1,1]\),值越接近1表示聚类效果越好,轮廓系数的计算涉及到样本到同簇内其他样本的平均距离和到最近簇中样本的平均距离等因素。
数据可视化
1、基本可视化图表
- 柱状图:适用于比较不同类别之间的数据大小,比较不同品牌手机在某一季度的销售量,可以用柱状图清晰地展示每个品牌的销售量差异。
- 折线图:主要用于展示数据随时间或其他连续变量的变化趋势,比如展示某股票在过去一年的价格走势。
- 饼图:用于表示各部分在总体中所占的比例关系,展示一个公司不同业务部门的营收占比。
图片来源于网络,如有侵权联系删除
2、高级可视化技术
- 箱线图:可以同时展示数据的中位数、四分位数、异常值等信息,常用于分析数据的分布情况,在分析学生考试成绩的分布时,箱线图可以直观地显示出成绩的集中趋势、离散程度和异常值情况。
- 热力图:通过颜色的深浅来表示数据的大小或密度,在分析矩阵数据时非常有用,比如在分析基因表达数据时,热力图可以直观地展示不同基因在不同样本中的表达水平差异。
期末复习策略
1、理论知识复习
- 首先要梳理数据分析与数据挖掘的基本概念,包括定义、步骤、算法原理等,要深入理解决策树算法是如何根据信息增益或信息熵来选择划分属性的,对于数据预处理中的各种方法,要掌握其适用场景和计算过程,可以通过制作思维导图来整理知识点,将各个知识点之间的关系清晰地呈现出来。
2、算法实践复习
- 复习时要结合实际的数据集进行算法的实现,可以使用Python中的相关库,如Pandas用于数据处理、Scikit - learn用于机器学习算法的实现,重新实现K - Means聚类算法,通过实际操作来加深对算法的理解,包括算法的初始化、迭代过程以及收敛条件等,要能够对算法的结果进行分析,如对聚类结果进行可视化展示,分析聚类的合理性。
3、案例分析复习
- 研究一些经典的数据分析与数据挖掘案例,了解在实际应用中如何从问题定义、数据收集、处理到模型构建和结果评估的整个流程,分析Netflix如何通过数据挖掘算法来为用户推荐电影,通过案例分析,可以学习到如何将理论知识应用到实际问题中,并且能够在考试中更好地应对案例分析类的题目。
通过以上对数据分析与数据挖掘各个方面的复习,包括基础概念、数据处理、算法、模型评估和可视化等,能够在期末考试中取得较好的成绩。
评论列表