黑狐家游戏

泰坦尼克号数据集分析python代码,深度解析泰坦尼克号数据集,Python编程视角下的生死存亡之谜

欧气 1 0

本文目录导读:

  1. 数据集介绍
  2. Python编程实现

泰坦尼克号,这艘被称为“永不沉没的巨轮”,在1912年4月14日撞上冰山后沉没,造成1500多人丧生,这一事件震惊了世界,也成为了后人研究的对象,我们通过Python编程,对泰坦尼克号数据集进行分析,试图揭示这起悲剧背后的原因。

泰坦尼克号数据集分析python代码,深度解析泰坦尼克号数据集,Python编程视角下的生死存亡之谜

图片来源于网络,如有侵权联系删除

数据集介绍

泰坦尼克号数据集包含了711位乘客和船员的生存状态、年龄、性别、船舱等级、船票等级、姓名、登船港口等信息,通过对这些数据的分析,我们可以了解乘客的生存概率,以及影响生存的因素。

Python编程实现

1、数据导入与预处理

我们需要导入数据集,并进行预处理,在Python中,我们可以使用pandas库来完成这一任务。

import pandas as pd
导入数据集
data = pd.read_csv('titanic.csv')
预处理
data['Survived'] = data['Survived'].map({0: 'Dead', 1: 'Survived'})
data['Sex'] = data['Sex'].map({'male': 'M', 'female': 'F'})

2、数据分析

我们对数据进行分析,主要包括以下几个方面:

(1)乘客性别与生存率的关系

gender_survival = data.groupby('Sex')['Survived'].value_counts()
print(gender_survival)

通过分析,我们可以发现女性乘客的生存率高于男性乘客。

(2)船舱等级与生存率的关系

泰坦尼克号数据集分析python代码,深度解析泰坦尼克号数据集,Python编程视角下的生死存亡之谜

图片来源于网络,如有侵权联系删除

class_survival = data.groupby('Pclass')['Survived'].value_counts()
print(class_survival)

分析结果显示,一等舱乘客的生存率最高,三等舱乘客的生存率最低。

(3)年龄与生存率的关系

age_survival = data.groupby('Age')['Survived'].value_counts()
print(age_survival)

从分析结果可以看出,年龄较小的乘客生存率较高。

(4)登船港口与生存率的关系

port_survival = data.groupby('Embarked')['Survived'].value_counts()
print(port_survival)

分析结果显示,从皇后镇登船的乘客生存率最高,从南安普顿登船的乘客生存率最低。

3、结果可视化

为了更直观地展示分析结果,我们可以使用matplotlib库进行可视化。

import matplotlib.pyplot as plt
绘制性别生存率饼图
plt.pie(gender_survival.values, labels=gender_survival.index, autopct='%1.1f%%')
plt.title('Gender Survival Rate')
plt.show()
绘制船舱等级生存率柱状图
plt.bar(class_survival.index, class_survival.values)
plt.xlabel('Pclass')
plt.ylabel('Survival Rate')
plt.title('Class Survival Rate')
plt.show()

通过对泰坦尼克号数据集的分析,我们可以得出以下结论:

泰坦尼克号数据集分析python代码,深度解析泰坦尼克号数据集,Python编程视角下的生死存亡之谜

图片来源于网络,如有侵权联系删除

1、女性乘客的生存率高于男性乘客。

2、一等舱乘客的生存率最高,三等舱乘客的生存率最低。

3、年龄较小的乘客生存率较高。

4、从皇后镇登船的乘客生存率最高,从南安普顿登船的乘客生存率最低。

这些分析结果有助于我们了解泰坦尼克号沉没事件背后的原因,并为后人提供警示,这也展示了Python编程在数据分析领域的强大功能。

标签: #泰坦尼克号数据集分析python

黑狐家游戏
  • 评论列表

留言评论