本文目录导读:
泰坦尼克号沉船事件是20世纪初最著名的灾难之一,造成了1500多条生命的消逝,在这场悲剧中,一些乘客却奇迹般地幸存了下来,为了探究这些幸存者背后的生存密码,本文将基于泰坦尼克号乘客数据,进行深度处理与分析,并运用可视化技术呈现数据背后的故事。
数据预处理
1、数据来源
图片来源于网络,如有侵权联系删除
本文所使用的数据来源于Kaggle网站上的泰坦尼克号乘客数据集,包含891名乘客的信息,包括年龄、性别、船舱等级、是否存活等。
2、数据预处理
(1)数据清洗:在处理数据之前,首先对数据进行清洗,去除缺失值、异常值等,经过清洗,共有712名乘客的有效数据。
(2)数据类型转换:将年龄、船舱等级等数值型数据转换为类别型数据,便于后续分析。
(3)特征工程:根据数据特点,提取以下特征:
- 性别:将性别分为男、女两个类别;
- 年龄:将年龄分为儿童、青年、中年、老年四个类别;
- 船舱等级:将船舱等级分为头等舱、二等舱、三等舱三个类别;
- 是否存活:将是否存活分为存活、死亡两个类别。
图片来源于网络,如有侵权联系删除
数据分析
1、性别与存活率
通过分析性别与存活率的关系,发现女性存活率明显高于男性,这可能是因为在当时的背景下,女性被视为弱势群体,因此在救援过程中得到更多的关注。
2、年龄与存活率
分析年龄与存活率的关系,发现儿童和青少年的存活率较高,这可能是因为在救援过程中,救援人员更倾向于救助弱势群体。
3、船舱等级与存活率
分析船舱等级与存活率的关系,发现头等舱乘客的存活率最高,其次是二等舱乘客,三等舱乘客的存活率最低,这可能是因为头等舱乘客拥有更多的生存资源,如救生艇、救生衣等。
4、是否存活与船舱等级
分析是否存活与船舱等级的关系,发现存活乘客中,头等舱乘客占比最高,其次是二等舱乘客,三等舱乘客占比最低,这可能是因为头等舱乘客在灾难发生时更容易得到救援。
可视化分析
1、性别与存活率
图片来源于网络,如有侵权联系删除
通过饼图展示男女乘客的存活率,发现女性存活率明显高于男性。
2、年龄与存活率
通过柱状图展示不同年龄段乘客的存活率,发现儿童和青少年的存活率较高。
3、船舱等级与存活率
通过柱状图展示不同船舱等级乘客的存活率,发现头等舱乘客的存活率最高。
通过对泰坦尼克号乘客数据的预处理、分析及可视化,本文揭示了百年灾难背后的生存密码,在灾难面前,女性、儿童和青少年、头等舱乘客更容易获得生存机会,这为我们在面对类似灾难时提供了有益的启示,这并非绝对,还需要结合实际情况进行具体分析。
泰坦尼克号乘客数据为我们提供了一个珍贵的案例,让我们更加深入地了解灾难背后的生存规律,在未来,我们可以将此类分析方法应用于其他领域,为人类社会的进步贡献力量。
标签: #泰坦尼克号数据预处理
评论列表