本文目录导读:
泰坦尼克号沉船事件是人类历史上最悲惨的灾难之一,发生在1912年,此次事件共造成1500多人遇难,其中女性和儿童的幸存率较高,本文通过对泰坦尼克号数据集的挖掘与分析,旨在探究影响乘客幸存的因素,以期为类似事件提供参考。
数据集描述
泰坦尼克号数据集包含700多个乘客的详细信息,包括年龄、性别、票价等级、船舱等级、家庭成员关系、是否吸烟等,幸存者标签为1,遇难者标签为0。
数据预处理
1、数据清洗:删除缺失值、异常值和重复值。
图片来源于网络,如有侵权联系删除
2、特征工程:根据数据集特点,选取以下特征进行挖掘:
(1)年龄:将年龄划分为多个区间,如儿童、青年、中年、老年。
(2)性别:分为男性和女性。
(3)票价等级:分为头等舱、二等舱、三等舱。
(4)船舱等级:分为上层、中层、下层。
(5)家庭成员关系:分为独自、与配偶、与子女、与父母、与兄弟姐妹。
(6)是否吸烟:分为吸烟者和非吸烟者。
图片来源于网络,如有侵权联系删除
幸存者生存分析
1、年龄与幸存率:通过年龄区间与幸存者标签的关联分析,发现儿童和中年乘客的幸存率较高,而老年乘客的幸存率较低。
2、性别与幸存率:通过性别与幸存者标签的关联分析,发现女性乘客的幸存率显著高于男性乘客。
3、票价等级与幸存率:通过票价等级与幸存者标签的关联分析,发现头等舱乘客的幸存率较高,而三等舱乘客的幸存率较低。
4、船舱等级与幸存率:通过船舱等级与幸存者标签的关联分析,发现上层船舱乘客的幸存率较高,而下层船舱乘客的幸存率较低。
5、家庭成员关系与幸存率:通过家庭成员关系与幸存者标签的关联分析,发现与配偶、子女、父母和兄弟姐妹同行的乘客幸存率较高。
6、是否吸烟与幸存率:通过是否吸烟与幸存者标签的关联分析,发现吸烟者与幸存率无显著关联。
通过对泰坦尼克号数据集的挖掘与分析,得出以下结论:
图片来源于网络,如有侵权联系删除
1、儿童和中年乘客的幸存率较高,而老年乘客的幸存率较低。
2、女性乘客的幸存率显著高于男性乘客。
3、头等舱乘客和上层船舱乘客的幸存率较高,而三等舱乘客和下层船舱乘客的幸存率较低。
4、与配偶、子女、父母和兄弟姐妹同行的乘客幸存率较高。
5、吸烟者与幸存率无显著关联。
本文的研究结果为类似事件提供了有益的参考,有助于提高灾难发生时的生存率,由于数据集的限制,本文的研究结果可能存在一定的偏差,在今后的研究中,可以进一步扩大数据集,以获得更准确的分析结果。
标签: #泰坦尼克号数据挖掘分析报告
评论列表