本文目录导读:
泰坦尼克号,一艘豪华巨轮,却以悲剧收场,这场震惊世界的大灾难,让人们对生命、人性、社会制度有了更深刻的反思,而如今,我们通过数据挖掘,将历史重现,揭开泰坦尼克号沉船事件的神秘面纱,本文将从数据预处理、数据可视化两个方面,对泰坦尼克号数据进行深入剖析。
图片来源于网络,如有侵权联系删除
数据预处理
1、数据来源
泰坦尼克号数据来源于美国国家档案馆,包含乘客、船员、船票等详细信息,数据格式为CSV,共包含891条记录。
2、数据清洗
(1)缺失值处理:在泰坦尼克号数据中,存在部分缺失值,针对缺失值,我们采用以下方法进行处理:
①删除含有缺失值的记录:对于某些关键字段,如年龄、船票等级等,删除含有缺失值的记录。
②填充缺失值:对于其他字段,采用均值、中位数、众数等方法进行填充。
(2)异常值处理:在泰坦尼克号数据中,存在部分异常值,针对异常值,我们采用以下方法进行处理:
①删除异常值:对于年龄、票价等字段,删除超出正常范围的记录。
②修正异常值:对于其他字段,采用线性插值、多项式插值等方法进行修正。
图片来源于网络,如有侵权联系删除
3、数据转换
(1)性别转换:将性别字段从“male”和“female”转换为数字,便于后续分析。
(2)船票等级转换:将船票等级从“1st”、“2nd”、“3rd”转换为数字,便于后续分析。
数据可视化
1、乘客生存率分布
通过柱状图展示不同船票等级、性别的乘客生存率,从图中可以看出,一等舱乘客的生存率明显高于其他等级,女性乘客的生存率高于男性乘客。
2、年龄分布
通过直方图展示乘客年龄分布情况,从图中可以看出,乘客年龄主要集中在20-40岁之间,20岁以下和40岁以上乘客较少。
3、票价分布
通过直方图展示乘客票价分布情况,从图中可以看出,票价主要集中在10-50英镑之间,票价低于10英镑和高于50英镑的乘客较少。
图片来源于网络,如有侵权联系删除
4、乘客与船员比例
通过饼图展示乘客与船员比例,从图中可以看出,乘客人数远多于船员人数。
通过对泰坦尼克号数据的预处理和可视化分析,我们揭示了以下几个关键点:
1、一等舱乘客的生存率明显高于其他等级,女性乘客的生存率高于男性乘客。
2、乘客年龄主要集中在20-40岁之间,票价主要集中在10-50英镑之间。
3、乘客人数远多于船员人数。
通过对泰坦尼克号数据的深入挖掘,我们不仅了解了历史事件,还为后续的数据挖掘、机器学习等领域提供了丰富的案例。
标签: #泰坦尼克号数据预处理
评论列表