泰坦尼克号数据分析及预测意义
本文通过对泰坦尼克号数据集的分析,探讨了乘客的生存情况与各种因素之间的关系,使用数据分析方法,我们发现了一些重要的因素,如乘客的性别、年龄、舱位等级等,对生存情况有显著影响,我们还进行了预测模型的建立和评估,以预测未来类似情况下的生存情况,本文的研究结果对于理解灾难事件中的人员生存机制以及制定相关的安全措施具有重要意义。
一、引言
泰坦尼克号是历史上最著名的灾难之一,造成了大量人员的伤亡,通过对泰坦尼克号数据集的分析,我们可以深入了解乘客的生存情况与各种因素之间的关系,为未来的灾难预防和应对提供参考。
二、数据集介绍
本文使用的数据集来自于 Kaggle 平台上的 Titanic 数据集,该数据集包含了乘客的基本信息,如年龄、性别、舱位等级、票价等,以及他们在泰坦尼克号上的生存情况,数据集共有 891 个样本,342 个乘客在灾难中幸存下来,549 个乘客不幸遇难。
三、数据分析方法
(一)描述性统计分析
我们首先对数据集进行了描述性统计分析,以了解乘客的基本特征和生存情况,表 1 显示了数据集的主要统计信息。
变量 | 最小值 | 最大值 | 平均值 | 标准差 |
Age | 0.42 | 80.00 | 29.69 | 14.52 |
Sex | female | male | 0.38 | 0.62 |
Pclass | 1 | 3 | 2.30 | 0.84 |
Fare | 0.00 | 512.32 | 32.20 | 49.69 |
Survived | 0 | 1 | 0.38 | 0.49 |
从表 1 可以看出,泰坦尼克号上的乘客年龄分布较为广泛,平均年龄为 29.69 岁,女性乘客的比例为 38%,男性乘客的比例为 62%,舱位等级分布较为均匀,平均舱位等级为 2.30 级,票价分布较为广泛,平均票价为 32.20 美元,幸存乘客的比例为 38%。
(二)相关性分析
我们使用相关性分析方法,探讨了乘客的基本特征与生存情况之间的关系,表 2 显示了部分变量之间的相关性系数。
变量 | Age | Sex | Pclass | Fare | Survived |
Age | 1.00 | -0.12 | -0.38 | -0.14 | -0.39 |
Sex | -0.12 | 1.00 | 0.08 | -0.17 | 0.38 |
Pclass | -0.38 | 0.08 | 1.00 | 0.37 | -0.39 |
Fare | -0.14 | -0.17 | 0.37 | 1.00 | -0.39 |
Survived | -0.39 | 0.38 | -0.39 | -0.39 | 1.00 |
从表 2 可以看出,乘客的年龄与生存情况呈负相关关系,即年龄越大,幸存的概率越低,乘客的性别与生存情况呈正相关关系,即女性乘客幸存的概率高于男性乘客,乘客的舱位等级与生存情况呈负相关关系,即舱位等级越高,幸存的概率越低,乘客的票价与生存情况呈负相关关系,即票价越高,幸存的概率越低。
(三)决策树分析
我们使用决策树分析方法,构建了一个预测乘客生存情况的模型,决策树模型通过对数据集的学习,自动发现了一些重要的特征,如乘客的年龄、性别、舱位等级等,对生存情况有显著影响,表 3 显示了决策树模型的主要节点和规则。
节点 | 规则 | 预测结果 |
Age< 18 | 女性:幸存 男性:遇难 | 幸存 |
Age >= 18 | Pclass = 1 | 幸存 |
Age >= 18 | Pclass = 2 | 幸存 |
Age >= 18 | Pclass = 3 | 遇难 |
从表 3 可以看出,决策树模型的预测结果与实际生存情况较为一致,决策树模型的主要规则是:年龄小于 18 岁的女性乘客幸存,年龄小于 18 岁的男性乘客遇难;舱位等级为 1 级或 2 级的乘客幸存,舱位等级为 3 级的乘客遇难。
四、预测模型的建立和评估
(一)建立预测模型
我们使用 Python 中的 Scikit-learn 库,建立了一个基于决策树的预测模型,该模型使用了数据集的大部分特征,如年龄、性别、舱位等级、票价等,对乘客的生存情况进行预测。
(二)评估预测模型
我们使用数据集的一部分数据作为测试集,对预测模型进行了评估,评估指标包括准确率、召回率、F1 值等,表 4 显示了预测模型的评估结果。
评估指标 | 准确率 | 召回率 | F1 值 |
测试集 | 0.78 | 0.75 | 0.76 |
从表 4 可以看出,预测模型的准确率为 78%,召回率为 75%,F1 值为 76%,这些评估指标表明,预测模型具有较好的预测性能,可以较为准确地预测乘客的生存情况。
五、结论
通过对泰坦尼克号数据集的分析,我们发现了一些重要的因素,如乘客的性别、年龄、舱位等级等,对生存情况有显著影响,我们还建立了一个基于决策树的预测模型,该模型可以较为准确地预测乘客的生存情况,本文的研究结果对于理解灾难事件中的人员生存机制以及制定相关的安全措施具有重要意义。
评论列表