本文目录导读:
泰坦尼克号,这艘被称为“永不沉没的巨轮”,在1912年4月14日撞上冰山后沉没,造成1500多人丧生,这一事件震惊了世界,也成为了后人研究的对象,我们通过Python编程,对泰坦尼克号数据集进行分析,试图揭示这起悲剧背后的原因。
图片来源于网络,如有侵权联系删除
数据集介绍
泰坦尼克号数据集包含了711位乘客和船员的生存状态、年龄、性别、船舱等级、船票等级、姓名、登船港口等信息,通过对这些数据的分析,我们可以了解乘客的生存概率,以及影响生存的因素。
Python编程实现
1、数据导入与预处理
我们需要导入数据集,并进行预处理,在Python中,我们可以使用pandas库来完成这一任务。
import pandas as pd 导入数据集 data = pd.read_csv('titanic.csv') 预处理 data['Survived'] = data['Survived'].map({0: 'Dead', 1: 'Survived'}) data['Sex'] = data['Sex'].map({'male': 'M', 'female': 'F'})
2、数据分析
我们对数据进行分析,主要包括以下几个方面:
(1)乘客性别与生存率的关系
gender_survival = data.groupby('Sex')['Survived'].value_counts() print(gender_survival)
通过分析,我们可以发现女性乘客的生存率高于男性乘客。
(2)船舱等级与生存率的关系
图片来源于网络,如有侵权联系删除
class_survival = data.groupby('Pclass')['Survived'].value_counts() print(class_survival)
分析结果显示,一等舱乘客的生存率最高,三等舱乘客的生存率最低。
(3)年龄与生存率的关系
age_survival = data.groupby('Age')['Survived'].value_counts() print(age_survival)
从分析结果可以看出,年龄较小的乘客生存率较高。
(4)登船港口与生存率的关系
port_survival = data.groupby('Embarked')['Survived'].value_counts() print(port_survival)
分析结果显示,从皇后镇登船的乘客生存率最高,从南安普顿登船的乘客生存率最低。
3、结果可视化
为了更直观地展示分析结果,我们可以使用matplotlib库进行可视化。
import matplotlib.pyplot as plt 绘制性别生存率饼图 plt.pie(gender_survival.values, labels=gender_survival.index, autopct='%1.1f%%') plt.title('Gender Survival Rate') plt.show() 绘制船舱等级生存率柱状图 plt.bar(class_survival.index, class_survival.values) plt.xlabel('Pclass') plt.ylabel('Survival Rate') plt.title('Class Survival Rate') plt.show()
通过对泰坦尼克号数据集的分析,我们可以得出以下结论:
图片来源于网络,如有侵权联系删除
1、女性乘客的生存率高于男性乘客。
2、一等舱乘客的生存率最高,三等舱乘客的生存率最低。
3、年龄较小的乘客生存率较高。
4、从皇后镇登船的乘客生存率最高,从南安普顿登船的乘客生存率最低。
这些分析结果有助于我们了解泰坦尼克号沉没事件背后的原因,并为后人提供警示,这也展示了Python编程在数据分析领域的强大功能。
标签: #泰坦尼克号数据集分析python
评论列表