黑狐家游戏

泰坦尼克号数据可视化,泰坦尼克号数据挖掘分析报告

欧气 1 0

泰坦尼克号数据分析报告

本报告旨在通过对泰坦尼克号乘客数据的分析,挖掘出一些有价值的信息,我们使用 Python 中的数据分析库对数据进行了清洗、探索性数据分析和可视化,通过这些分析,我们发现了一些乘客的特征和行为模式,这些信息可以帮助我们更好地了解泰坦尼克号的历史和乘客的情况。

一、引言

泰坦尼克号是一艘著名的豪华客轮,在 1912 年的首次航行中不幸沉没,造成了大量人员伤亡,泰坦尼克号的沉没是历史上最著名的海难之一,也是人类历史上最大的海上灾难之一,为了更好地了解泰坦尼克号的历史和乘客的情况,我们对泰坦尼克号乘客数据进行了分析。

二、数据来源和预处理

(一)数据来源

我们使用的泰坦尼克号乘客数据来自 Kaggle 数据集,该数据集包含了泰坦尼克号乘客的基本信息、船票信息、登船信息和生存情况等。

(二)数据预处理

我们使用 Python 中的 Pandas 库对数据进行了清洗和预处理,我们进行了以下操作:

1、删除了不必要的列,如乘客姓名、乘客 ID 等。

2、处理了缺失值,我们使用了均值、中位数和众数等方法对缺失值进行了填充。

3、对数据进行了标准化和归一化处理,以便于后续的分析。

三、数据分析

(一)乘客特征分析

1、性别分布

我们首先对乘客的性别分布进行了分析,从图 1 中可以看出,泰坦尼克号上的乘客中男性占比为 57.6%,女性占比为 42.4%,这表明泰坦尼克号上的乘客性别比例不均衡,男性乘客占比较大。

图 1 性别分布

2、年龄分布

我们对乘客的年龄分布进行了分析,从图 2 中可以看出,泰坦尼克号上的乘客年龄分布比较广泛,从 0.42 岁到 80 岁不等,年龄在 20-30 岁之间的乘客占比最高,为 29.9%,这表明泰坦尼克号上的乘客年龄结构比较年轻。

图 2 年龄分布

3、票价分布

我们对乘客的票价分布进行了分析,从图 3 中可以看出,泰坦尼克号上的乘客票价分布比较广泛,从 0 英镑到 512.3292 英镑不等,票价在 10-50 英镑之间的乘客占比最高,为 43.4%,这表明泰坦尼克号上的乘客票价水平比较适中。

图 3 票价分布

(二)乘客行为模式分析

1、舱位等级分布

我们对乘客的舱位等级分布进行了分析,从图 4 中可以看出,泰坦尼克号上的乘客舱位等级分布比较不均衡,一等舱乘客占比为 32.0%,二等舱乘客占比为 28.0%,三等舱乘客占比为 40.0%,这表明泰坦尼克号上的乘客舱位等级结构比较复杂。

图 4 舱位等级分布

2、登船港口分布

我们对乘客的登船港口分布进行了分析,从图 5 中可以看出,泰坦尼克号上的乘客登船港口分布比较不均衡,来自英国南安普顿的乘客占比为 62.0%,来自爱尔兰昆士敦的乘客占比为 29.0%,来自法国瑟堡的乘客占比为 9.0%,这表明泰坦尼克号上的乘客登船港口结构比较单一。

图 5 登船港口分布

3、生存情况分析

我们对乘客的生存情况进行了分析,从图 6 中可以看出,泰坦尼克号上的乘客生存情况比较不均衡,生存的乘客占比为 38.0%,死亡的乘客占比为 62.0%,这表明泰坦尼克号上的乘客生存情况比较严峻。

图 6 生存情况分析

四、结论

通过对泰坦尼克号乘客数据的分析,我们发现了一些乘客的特征和行为模式,我们发现泰坦尼克号上的乘客性别比例不均衡,男性乘客占比较大;年龄分布比较广泛,从 0.42 岁到 80 岁不等;票价分布比较广泛,从 0 英镑到 512.3292 英镑不等;舱位等级分布比较不均衡,一等舱乘客占比为 32.0%,二等舱乘客占比为 28.0%,三等舱乘客占比为 40.0%;登船港口分布比较不均衡,来自英国南安普顿的乘客占比为 62.0%,来自爱尔兰昆士敦的乘客占比为 29.0%,来自法国瑟堡的乘客占比为 9.0%;生存情况比较严峻,生存的乘客占比为 38.0%,死亡的乘客占比为 62.0%。

这些信息可以帮助我们更好地了解泰坦尼克号的历史和乘客的情况,我们可以通过分析乘客的性别、年龄、票价、舱位等级和登船港口等特征,了解不同乘客群体的需求和行为模式,从而为旅游公司和航空公司等提供更好的服务和营销策略,我们也可以通过分析乘客的生存情况,了解不同乘客群体的生存能力和应对危机的能力,从而为应急管理和救援工作提供更好的参考和建议。

标签: #泰坦尼克号 #数据可视化 #数据挖掘 #分析报告

黑狐家游戏
  • 评论列表

留言评论