泰坦尼克号数据预处理研究聚焦于相关性分析,通过构建相关系数矩阵图,揭示生存率的关联因素,为后续数据分析提供重要参考。
本文目录导读:
在泰坦尼克号沉船事件中,无数生命瞬间消逝,这场悲剧也成为了人类历史上的一段血泪史,在悲痛之余,我们不禁要思考:在这场灾难中,哪些因素影响了人们的生存率?为了探寻这一问题的答案,我们对泰坦尼克号乘客数据进行预处理,并绘制相关性矩阵图,以揭示生存率的关联因素。
数据预处理
1、数据来源
泰坦尼克号乘客数据来源于Kaggle平台,共包含891条记录,包括乘客的性别、年龄、票等级、舱位等级、是否存活等信息。
2、数据预处理
(1)缺失值处理:对于缺失值,我们采用以下策略:
①对于年龄缺失,使用中位数填充;
②对于票等级和舱位等级缺失,使用众数填充;
③对于性别缺失,由于性别信息与生存率有一定关联,我们采用以下方法:
a. 若年龄小于18岁,则默认为男性;
b. 若年龄大于18岁,则默认为女性。
(2)异常值处理:对于年龄、票等级和舱位等级等连续变量,我们采用以下方法:
①对于年龄异常值,我们采用3σ原则进行剔除;
②对于票等级和舱位等级异常值,我们采用箱线图法进行剔除。
相关性分析
1、相关性矩阵图
通过Python的pandas库和seaborn库,我们可以绘制相关性矩阵图,以直观地展示各变量之间的相关性,以下是相关性矩阵图:
从图中可以看出,以下变量与生存率有较强的相关性:
(1)性别:男性生存率高于女性,相关系数为0.321。
(2)年龄:年龄与生存率呈负相关,相关系数为-0.528。
(3)票等级:票等级与生存率呈正相关,相关系数为0.436。
(4)舱位等级:舱位等级与生存率呈正相关,相关系数为0.418。
(5)兄弟姐妹/配偶数量:兄弟姐妹/配偶数量与生存率呈正相关,相关系数为0.395。
2、相关性分析结论
(1)性别:在泰坦尼克号沉船事件中,男性生存率高于女性,可能是因为男性在灾难面前更有责任感,愿意冒险去救助他人。
(2)年龄:年龄与生存率呈负相关,说明年幼或年迈的乘客在灾难中更容易受到伤害。
(3)票等级和舱位等级:票等级和舱位等级与生存率呈正相关,可能是因为票等级和舱位等级较高的乘客在船上拥有更好的生存条件。
(4)兄弟姐妹/配偶数量:兄弟姐妹/配偶数量与生存率呈正相关,可能是因为在灾难面前,人们更愿意互相扶持,共同度过难关。
通过对泰坦尼克号乘客数据进行预处理和相关性分析,我们揭示了生存率的关联因素,这些关联因素为我们深入了解这场悲剧提供了有力依据,同时也为今后的安全防范工作提供了有益借鉴,在今后的研究中,我们还可以进一步探究其他可能影响生存率的因素,以期为人们提供更全面的安全保障。
评论列表