本文目录导读:
图片来源于网络,如有侵权联系删除
泰坦尼克号沉船事件是20世纪初最悲惨的海难之一,造成了1500多条生命的丧失,随着大数据时代的到来,人们对这一历史事件的关注度越来越高,本文将利用Python对泰坦尼克号数据集进行深度分析,揭示生存与命运背后的秘密。
数据集介绍
泰坦尼克号数据集包含711位乘客和船员的信息,包括年龄、性别、船舱等级、票价、是否生存等特征,数据集来源为Kaggle竞赛,数据格式为CSV。
Python环境搭建
1、安装Python:从官方网站下载Python安装包,按照提示完成安装。
2、安装Python库:在命令行中执行以下命令,安装数据分析、可视化等必要的Python库。
pip install pandas numpy matplotlib seaborn
数据分析
1、数据预处理
import pandas as pd 读取数据集 data = pd.read_csv("titanic.csv") 查看数据集基本信息 data.info() 查看数据集前几行 data.head()
2、数据探索
(1)统计各特征分布情况
图片来源于网络,如有侵权联系删除
统计年龄分布情况 age_distribution = data['Age'].value_counts().sort_index() 统计船舱等级分布情况 cabin_distribution = data['Cabin'].value_counts() 统计生存情况分布情况 survival_distribution = data['Survived'].value_counts()
(2)可视化特征分布情况
import matplotlib.pyplot as plt import seaborn as sns 绘制年龄分布直方图 plt.figure(figsize=(8, 6)) age_distribution.plot(kind='bar') plt.title('Age Distribution') plt.xlabel('Age') plt.ylabel('Count') plt.show() 绘制船舱等级分布直方图 plt.figure(figsize=(8, 6)) cabin_distribution.plot(kind='bar') plt.title('Cabin Distribution') plt.xlabel('Cabin') plt.ylabel('Count') plt.show() 绘制生存情况分布直方图 plt.figure(figsize=(8, 6)) survival_distribution.plot(kind='bar') plt.title('Survival Distribution') plt.xlabel('Survived') plt.ylabel('Count') plt.show()
3、特征工程
(1)处理缺失值
处理年龄缺失值 data['Age'].fillna(data['Age'].mean(), inplace=True) 处理船舱等级缺失值 data['Cabin'].fillna('Unknown', inplace=True)
(2)特征编码
将船舱等级转换为数值型 data['Cabin'] = pd.Categorical(data['Cabin']).codes 将性别转换为数值型 data['Sex'] = pd.Categorical(data['Sex']).codes
4、生存预测
(1)构建模型
from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression 划分训练集和测试集 X = data[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex', 'Cabin']] y = data['Survived'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 创建逻辑回归模型 model = LogisticRegression()
(2)训练模型
图片来源于网络,如有侵权联系删除
训练模型 model.fit(X_train, y_train)
(3)评估模型
评估模型 score = model.score(X_test, y_test) print("Model Accuracy: {:.2f}%".format(score * 100))
通过对泰坦尼克号数据集的深度分析,我们揭示了生存与命运背后的秘密,以下是一些关键发现:
1、年轻人、女性和富裕乘客的生存率较高。
2、船舱等级与生存率密切相关,三等舱乘客的生存率最低。
3、逻辑回归模型在预测生存方面具有较高的准确性。
通过对历史事件的深度分析,我们可以更好地理解人类社会的过去,为未来的发展提供有益的启示。
标签: #泰坦尼克号数据集分析python
评论列表