本文目录导读:
泰坦尼克号,这艘被誉为“永不沉没”的巨轮,在1912年4月14日发生了震惊世界的沉船事故,造成1500多人遇难,一百多年过去了,这起悲剧仍让人痛心疾首,本文通过数据挖掘技术,对泰坦尼克号沉船事故进行深入分析,揭示背后的真相。
数据来源及预处理
1、数据来源
图片来源于网络,如有侵权联系删除
本文所使用的数据来源于多个渠道,包括:
(1)泰坦尼克号乘客名单及生存情况:包括乘客姓名、年龄、性别、船舱等级、生存情况等。
(2)船员名单及生存情况:包括船员姓名、年龄、性别、职位、生存情况等。
(3)沉船事故调查报告:包括事故原因、遇难者名单、沉船过程等。
2、数据预处理
(1)数据清洗:对原始数据进行清洗,去除重复、错误、缺失的数据。
(2)数据整合:将不同来源的数据进行整合,形成统一的数据集。
(3)特征工程:对数据进行特征提取,如乘客年龄、船舱等级、生存情况等。
数据挖掘方法
1、生存分析
图片来源于网络,如有侵权联系删除
通过生存分析方法,分析乘客的生存概率与各种因素之间的关系,年龄、性别、船舱等级、是否吸烟等。
2、关联规则挖掘
通过关联规则挖掘方法,分析乘客在船上的行为模式,哪些乘客在同一时间段内进出餐厅、吸烟室等。
3、主题模型
通过主题模型,分析沉船事故背后的原因,事故原因、遇难者群体特征等。
结果分析
1、生存分析
(1)年龄:年龄与生存概率呈负相关,年轻乘客的生存概率高于老年乘客。
(2)性别:女性乘客的生存概率高于男性乘客。
(3)船舱等级:一等舱乘客的生存概率高于二等舱和三等舱乘客。
图片来源于网络,如有侵权联系删除
(4)吸烟:吸烟乘客的生存概率低于不吸烟乘客。
2、关联规则挖掘
(1)餐厅:在餐厅进出的乘客较多,且男女乘客比例较为均衡。
(2)吸烟室:吸烟室主要聚集男性乘客,且年龄集中在30-50岁。
3、主题模型
(1)事故原因:冰山撞击、机械故障、船员操作失误等。
(2)遇难者群体特征:遇难者以男性、老年乘客、三等舱乘客为主。
通过数据挖掘技术,我们对泰坦尼克号沉船事故进行了深入分析,结果表明,年龄、性别、船舱等级、吸烟等因素对乘客的生存概率有显著影响,事故原因及遇难者群体特征也为我们揭示了沉船悲剧背后的真相,此次研究有助于我们更好地了解历史事件,为今后类似事故的预防提供借鉴。
标签: #泰坦尼克号 数据挖掘
评论列表