泰坦尼克号数据分析报告
本报告旨在通过对泰坦尼克号乘客数据的分析,挖掘出一些有价值的信息,我们使用 Python 中的数据分析库对数据进行了清洗、探索性数据分析和可视化,通过这些分析,我们发现了一些乘客的特征和行为模式,这些信息可以帮助我们更好地了解泰坦尼克号的历史和乘客的情况。
一、引言
泰坦尼克号是一艘著名的豪华客轮,在 1912 年的首次航行中不幸沉没,造成了大量人员伤亡,泰坦尼克号的沉没是历史上最著名的海难之一,也是人类历史上最大的海上灾难之一,为了更好地了解泰坦尼克号的历史和乘客的情况,我们对泰坦尼克号乘客数据进行了分析。
二、数据来源和预处理
(一)数据来源
我们使用的泰坦尼克号乘客数据来自 Kaggle 数据集,该数据集包含了泰坦尼克号乘客的基本信息、船票信息、登船信息和生存情况等。
(二)数据预处理
我们使用 Python 中的 Pandas 库对数据进行了清洗和预处理,我们进行了以下操作:
1、删除了不必要的列,如乘客姓名、乘客 ID 等。
2、处理了缺失值,我们使用了均值、中位数和众数等方法对缺失值进行了填充。
3、对数据进行了标准化和归一化处理,以便于后续的分析。
三、数据分析
(一)乘客特征分析
1、性别分布
我们首先对乘客的性别分布进行了分析,从图 1 中可以看出,泰坦尼克号上的乘客中男性占比为 57.6%,女性占比为 42.4%,这表明泰坦尼克号上的乘客性别比例不均衡,男性乘客占比较大。
图 1 性别分布
2、年龄分布
我们对乘客的年龄分布进行了分析,从图 2 中可以看出,泰坦尼克号上的乘客年龄分布比较广泛,从 0.42 岁到 80 岁不等,年龄在 20-30 岁之间的乘客占比最高,为 29.9%,这表明泰坦尼克号上的乘客年龄结构比较年轻。
图 2 年龄分布
3、票价分布
我们对乘客的票价分布进行了分析,从图 3 中可以看出,泰坦尼克号上的乘客票价分布比较广泛,从 0 英镑到 512.3292 英镑不等,票价在 10-50 英镑之间的乘客占比最高,为 43.4%,这表明泰坦尼克号上的乘客票价水平比较适中。
图 3 票价分布
(二)乘客行为模式分析
1、舱位等级分布
我们对乘客的舱位等级分布进行了分析,从图 4 中可以看出,泰坦尼克号上的乘客舱位等级分布比较不均衡,一等舱乘客占比为 32.0%,二等舱乘客占比为 28.0%,三等舱乘客占比为 40.0%,这表明泰坦尼克号上的乘客舱位等级结构比较复杂。
图 4 舱位等级分布
2、登船港口分布
我们对乘客的登船港口分布进行了分析,从图 5 中可以看出,泰坦尼克号上的乘客登船港口分布比较不均衡,来自英国南安普顿的乘客占比为 62.0%,来自爱尔兰昆士敦的乘客占比为 29.0%,来自法国瑟堡的乘客占比为 9.0%,这表明泰坦尼克号上的乘客登船港口结构比较单一。
图 5 登船港口分布
3、生存情况分析
我们对乘客的生存情况进行了分析,从图 6 中可以看出,泰坦尼克号上的乘客生存情况比较不均衡,生存的乘客占比为 38.0%,死亡的乘客占比为 62.0%,这表明泰坦尼克号上的乘客生存情况比较严峻。
图 6 生存情况分析
四、结论
通过对泰坦尼克号乘客数据的分析,我们发现了一些乘客的特征和行为模式,我们发现泰坦尼克号上的乘客性别比例不均衡,男性乘客占比较大;年龄分布比较广泛,从 0.42 岁到 80 岁不等;票价分布比较广泛,从 0 英镑到 512.3292 英镑不等;舱位等级分布比较不均衡,一等舱乘客占比为 32.0%,二等舱乘客占比为 28.0%,三等舱乘客占比为 40.0%;登船港口分布比较不均衡,来自英国南安普顿的乘客占比为 62.0%,来自爱尔兰昆士敦的乘客占比为 29.0%,来自法国瑟堡的乘客占比为 9.0%;生存情况比较严峻,生存的乘客占比为 38.0%,死亡的乘客占比为 62.0%。
这些信息可以帮助我们更好地了解泰坦尼克号的历史和乘客的情况,我们可以通过分析乘客的性别、年龄、票价、舱位等级和登船港口等特征,了解不同乘客群体的需求和行为模式,从而为旅游公司和航空公司等提供更好的服务和营销策略,我们也可以通过分析乘客的生存情况,了解不同乘客群体的生存能力和应对危机的能力,从而为应急管理和救援工作提供更好的参考和建议。
评论列表