黑狐家游戏

泰坦尼克号数据集分析python代码,基于Python的泰坦尼克号数据集深度分析,揭秘生存与命运的秘密

欧气 0 0

本文目录导读:

泰坦尼克号数据集分析python代码,基于Python的泰坦尼克号数据集深度分析,揭秘生存与命运的秘密

图片来源于网络,如有侵权联系删除

  1. 数据集介绍
  2. Python环境搭建
  3. 数据分析

泰坦尼克号沉船事件是20世纪初最悲惨的海难之一,造成了1500多条生命的丧失,随着大数据时代的到来,人们对这一历史事件的关注度越来越高,本文将利用Python对泰坦尼克号数据集进行深度分析,揭示生存与命运背后的秘密。

数据集介绍

泰坦尼克号数据集包含711位乘客和船员的信息,包括年龄、性别、船舱等级、票价、是否生存等特征,数据集来源为Kaggle竞赛,数据格式为CSV。

Python环境搭建

1、安装Python:从官方网站下载Python安装包,按照提示完成安装。

2、安装Python库:在命令行中执行以下命令,安装数据分析、可视化等必要的Python库。

pip install pandas numpy matplotlib seaborn

数据分析

1、数据预处理

import pandas as pd
读取数据集
data = pd.read_csv("titanic.csv")
查看数据集基本信息
data.info()
查看数据集前几行
data.head()

2、数据探索

(1)统计各特征分布情况

泰坦尼克号数据集分析python代码,基于Python的泰坦尼克号数据集深度分析,揭秘生存与命运的秘密

图片来源于网络,如有侵权联系删除

统计年龄分布情况
age_distribution = data['Age'].value_counts().sort_index()
统计船舱等级分布情况
cabin_distribution = data['Cabin'].value_counts()
统计生存情况分布情况
survival_distribution = data['Survived'].value_counts()

(2)可视化特征分布情况

import matplotlib.pyplot as plt
import seaborn as sns
绘制年龄分布直方图
plt.figure(figsize=(8, 6))
age_distribution.plot(kind='bar')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Count')
plt.show()
绘制船舱等级分布直方图
plt.figure(figsize=(8, 6))
cabin_distribution.plot(kind='bar')
plt.title('Cabin Distribution')
plt.xlabel('Cabin')
plt.ylabel('Count')
plt.show()
绘制生存情况分布直方图
plt.figure(figsize=(8, 6))
survival_distribution.plot(kind='bar')
plt.title('Survival Distribution')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.show()

3、特征工程

(1)处理缺失值

处理年龄缺失值
data['Age'].fillna(data['Age'].mean(), inplace=True)
处理船舱等级缺失值
data['Cabin'].fillna('Unknown', inplace=True)

(2)特征编码

将船舱等级转换为数值型
data['Cabin'] = pd.Categorical(data['Cabin']).codes
将性别转换为数值型
data['Sex'] = pd.Categorical(data['Sex']).codes

4、生存预测

(1)构建模型

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
划分训练集和测试集
X = data[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex', 'Cabin']]
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
创建逻辑回归模型
model = LogisticRegression()

(2)训练模型

泰坦尼克号数据集分析python代码,基于Python的泰坦尼克号数据集深度分析,揭秘生存与命运的秘密

图片来源于网络,如有侵权联系删除

训练模型
model.fit(X_train, y_train)

(3)评估模型

评估模型
score = model.score(X_test, y_test)
print("Model Accuracy: {:.2f}%".format(score * 100))

通过对泰坦尼克号数据集的深度分析,我们揭示了生存与命运背后的秘密,以下是一些关键发现:

1、年轻人、女性和富裕乘客的生存率较高。

2、船舱等级与生存率密切相关,三等舱乘客的生存率最低。

3、逻辑回归模型在预测生存方面具有较高的准确性。

通过对历史事件的深度分析,我们可以更好地理解人类社会的过去,为未来的发展提供有益的启示。

标签: #泰坦尼克号数据集分析python

黑狐家游戏
  • 评论列表

留言评论