泰坦尼克号数据挖掘案例分析
本文通过对 Kaggle 泰坦尼克号数据集的分析,运用数据挖掘技术,探索了乘客的生存情况与各种因素之间的关系,通过数据清洗、特征工程、模型选择和评估等步骤,我们构建了一个预测模型,能够较为准确地预测乘客的生存状况,我们还对模型进行了可视化分析,以便更好地理解数据和模型的结果。
一、引言
泰坦尼克号是一艘著名的豪华客轮,在其首次航行中遭遇了不幸的冰山撞击,导致了大量人员的伤亡,为了更好地了解这场灾难,研究人员收集了泰坦尼克号乘客的相关数据,并进行了数据分析和挖掘,通过对这些数据的分析,我们可以发现一些影响乘客生存的因素,为未来的灾难预防和救援提供参考。
二、数据来源和预处理
我们使用的数据集来自 Kaggle 平台,包含了泰坦尼克号乘客的基本信息、票价、舱位等级、性别、年龄、是否有兄弟姐妹/配偶、是否有父母/子女等特征,以及乘客的生存情况。
在进行数据分析之前,我们需要对数据进行预处理,包括数据清洗、缺失值处理、异常值处理等,我们首先删除了一些无关的列,如乘客的姓名、票号等,我们对缺失值进行了处理,采用了均值填充、中位数填充、众数填充等方法,对于异常值,我们采用了箱线图法进行检测和处理。
三、特征工程
在特征工程阶段,我们对数据进行了进一步的处理和分析,以提取出更多有意义的特征,我们进行了以下操作:
1、年龄特征:由于年龄是一个连续型变量,我们将其进行了离散化处理,分为儿童(0-12 岁)、青少年(13-19 岁)、成年人(20-59 岁)和老年人(60 岁以上)四个年龄段。
2、家庭规模特征:我们计算了每个乘客的家庭规模,即乘客是否有兄弟姐妹/配偶、是否有父母/子女等,我们将家庭规模分为小家庭(1-2 人)、中等家庭(3-4 人)和大家庭(5 人以上)三个类别。
3、舱位等级特征:我们将舱位等级分为一等舱、二等舱和三等舱三个类别。
4、性别特征:我们将性别分为男性和女性两个类别。
四、模型选择和评估
在特征工程完成后,我们选择了合适的模型进行预测,我们考虑了以下几种模型:
1、决策树模型:决策树模型是一种简单而有效的分类模型,它可以根据特征的重要性进行分裂,从而构建出一棵决策树。
2、随机森林模型:随机森林模型是一种集成学习模型,它由多个决策树组成,通过投票的方式进行预测。
3、支持向量机模型:支持向量机模型是一种线性分类模型,它可以通过寻找最优的超平面来进行分类。
4、逻辑回归模型:逻辑回归模型是一种线性回归模型,它可以通过引入逻辑函数来进行分类。
我们使用了交叉验证的方法对模型进行评估,以确保模型的准确性和稳定性,我们将数据集分为训练集和测试集,然后使用训练集对模型进行训练,使用测试集对模型进行评估,我们计算了模型的准确率、召回率、F1 值等指标,以评估模型的性能。
五、模型结果和分析
经过实验和比较,我们发现随机森林模型的性能最好,其准确率达到了 80.4%,召回率达到了 77.8%,F1 值达到了 79.1%,我们选择随机森林模型作为最终的预测模型。
我们对随机森林模型的结果进行了分析,发现以下因素对乘客的生存情况有显著影响:
1、舱位等级:一等舱乘客的生存概率最高,二等舱乘客的生存概率次之,三等舱乘客的生存概率最低。
2、性别:女性乘客的生存概率高于男性乘客。
3、年龄:儿童和老年人的生存概率较高,成年人的生存概率较低。
4、家庭规模:小家庭乘客的生存概率较高,大家庭乘客的生存概率较低。
六、可视化分析
为了更好地理解数据和模型的结果,我们进行了可视化分析,我们使用了 matplotlib 和 seaborn 等库绘制了一些图表,如柱状图、饼图、箱线图等。
通过可视化分析,我们发现以下结论:
1、舱位等级和性别对乘客的生存情况有显著影响:一等舱女性乘客的生存概率最高,三等舱男性乘客的生存概率最低。
2、年龄和家庭规模对乘客的生存情况有一定影响:儿童和老年人的生存概率较高,大家庭乘客的生存概率较低。
3、票价对乘客的生存情况没有显著影响:虽然高票价乘客的生存概率略高于低票价乘客,但这种差异并不显著。
七、结论和展望
通过对泰坦尼克号数据集的分析,我们发现了一些影响乘客生存的因素,并构建了一个预测模型,能够较为准确地预测乘客的生存状况,我们还对模型进行了可视化分析,以便更好地理解数据和模型的结果。
我们的研究也存在一些局限性,我们只考虑了一些基本的特征,如舱位等级、性别、年龄、家庭规模等,没有考虑其他因素,如乘客的社会地位、健康状况等,我们的模型只适用于泰坦尼克号数据集,不能直接应用于其他数据集,未来的研究需要进一步扩展特征空间,提高模型的泛化能力,以更好地应用于实际问题。
评论列表