本文目录导读:
《数据挖掘概念与技术第三版第六章课后答案详解》
关联分析基础概念回顾
在数据挖掘中,关联分析旨在发现数据集中不同项之间的有趣关系,这些关系可以表示为关联规则,如果购买了A商品,那么有很大概率也会购买B商品”。
(一)支持度(Support)
图片来源于网络,如有侵权联系删除
支持度是一个重要的度量指标,它衡量了一个项集在整个数据集中出现的频率,项集X的支持度定义为包含项集X的事务数与总事务数之比,在一个超市的购物篮数据集中,如果总共有1000笔交易,其中包含牛奶和面包这两项的交易有100笔,牛奶,面包}这个项集的支持度就是100 / 1000 = 0.1,支持度可以帮助我们找到那些经常一起出现的项集,过滤掉那些出现频率很低的项集组合。
(二)置信度(Confidence)
置信度用于衡量关联规则的可靠性,对于关联规则X→Y(表示如果X出现,那么Y很可能出现),其置信度定义为包含X和Y的事务数与包含X的事务数之比,在前面提到的超市购物篮数据中,如果包含牛奶的交易有200笔,而同时包含牛奶和面包的交易有100笔,那么规则“牛奶→面包”的置信度就是100 / 200 = 0.5,置信度越高,说明在X出现的情况下,Y出现的可能性越大。
课后习题答案解析
(一)习题一:计算项集支持度和关联规则置信度
假设我们有如下的事务数据集:
事务ID | 商品项集 |
1 | {A, B, C} |
2 | {A, C} |
3 | {B, C} |
4 | {A, B} |
1、计算项集{A, B}的支持度
总事务数为4,包含{A, B}的事务有2个(事务1和事务4),所以项集{A, B}的支持度为2 / 4 = 0.5。
2、计算关联规则“A→B”的置信度
包含A的事务有3个(事务1、事务2和事务4),同时包含A和B的事务有2个(事务1和事务4),所以规则“A→B”的置信度为2 / 3≈0.67。
图片来源于网络,如有侵权联系删除
(二)习题二:频繁项集挖掘算法比较
常见的频繁项集挖掘算法有Apriori算法和FP - Growth算法。
1、Apriori算法
- 原理:基于先验性质,即频繁项集的所有非空子集也必须是频繁的,算法首先扫描数据集,计算单个项的支持度,找出频繁1 - 项集,然后通过频繁k - 项集生成候选(k + 1)-项集,并再次扫描数据集计算它们的支持度,不断迭代直到没有新的频繁项集产生。
- 优点:算法简单易懂,容易实现。
- 缺点:需要多次扫描数据集,当数据集很大时效率较低,并且会产生大量的候选集。
2、FP - Growth算法
- 原理:采用分治策略,将数据集压缩成一个频繁模式树(FP - Tree),然后从FP - Tree中挖掘频繁项集,它不产生候选集,直接从树结构中挖掘频繁项集。
- 优点:只需要扫描数据集两次,效率比Apriori算法高很多,尤其适用于处理大规模数据集。
图片来源于网络,如有侵权联系删除
- 缺点:构建FP - Tree的过程相对复杂,并且树结构占用一定的内存空间。
关联分析在实际中的应用
(一)市场营销
在市场营销中,关联分析可以帮助企业了解顾客的购买行为模式,通过分析超市的购物篮数据,企业可以发现哪些商品经常被一起购买,从而进行组合促销,如果发现咖啡和牛奶经常被一起购买,企业可以推出咖啡和牛奶的组合套餐,提高销售额。
(二)网站推荐系统
对于网站推荐系统,关联分析可以用于发现用户浏览网页或点击链接之间的关系,如果发现用户在浏览某类科技新闻后,经常会点击相关的电子产品评测页面,网站就可以在科技新闻页面上推荐电子产品评测链接,提高用户的点击率和留存率。
(三)医疗领域
在医疗领域,关联分析可以用于分析疾病与症状、药物与治疗效果等之间的关系,通过分析大量的病历数据,发现某些症状组合与特定疾病的关联度很高,这有助于医生更准确地诊断疾病。
关联分析在多个领域都有着广泛的应用,通过深入理解关联分析的概念、度量指标以及相关算法,我们能够更好地挖掘数据中的潜在价值,为决策提供有力支持。
评论列表