黑狐家游戏

泰坦尼克号数据集分析r语言,深入解析泰坦尼克号数据集,R语言视角下的灾难史实

欧气 0 0
本文深入分析了泰坦尼克号数据集,运用R语言技术从不同角度解析了这起灾难的历史事实。通过数据挖掘和可视化,揭示了乘客生存率的影响因素,探讨了社会阶层、性别与生存概率之间的关系,为理解历史事件提供了独特的视角。

本文目录导读:

  1. 数据集介绍
  2. R语言数据分析

泰坦尼克号沉船事件是人类历史上最著名的灾难之一,自1912年4月14日以来,这场悲剧已过去百年,但关于它的话题依然热度不减,本文将运用R语言对泰坦尼克号数据集进行深入分析,以期揭示灾难背后的原因,并从中汲取教训。

数据集介绍

泰坦尼克号数据集包含712个样本,其中412个为生还者,300个为遇难者,数据集包含以下变量:

泰坦尼克号数据集分析r语言,深入解析泰坦尼克号数据集,R语言视角下的灾难史实

图片来源于网络,如有侵权联系删除

1、Pclass:乘客等级(1、2、3)

2、Survived:是否生还(0、1)

3、Name:乘客姓名

4、Sex:乘客性别

5、Age:乘客年龄

6、SibSp:与兄弟姐妹同船的人数

7、Parch:与父母或配偶同船的人数

8、Ticket:船票号码

泰坦尼克号数据集分析r语言,深入解析泰坦尼克号数据集,R语言视角下的灾难史实

图片来源于网络,如有侵权联系删除

9、Fare:船票价格

10、Cabin:船舱号码

11、Embarked:登船港口(S、C、Q)

R语言数据分析

1、数据预处理

我们需要导入数据集,并对缺失值进行处理,以下代码展示了数据预处理的步骤:

导入数据集
data <- read.csv("titanic.csv")
查看数据集结构
str(data)
查看缺失值
summary(data)
处理缺失值
data$Age[is.na(data$Age)] <- median(data$Age)
data$Embarked[is.na(data$Embarked)] <- "S"

2、数据可视化

为了更直观地了解数据集,我们可以通过绘制一些图表来展示不同变量之间的关系。

乘客等级分布
pie(table(data$Pclass), main="乘客等级分布", col=c("red", "green", "blue"))
男女比例
barplot(table(data$Sex), main="男女比例", xlab="性别", col=c("red", "blue"))
生还者与遇难者比例
pie(table(data$Survived), main="生还者与遇难者比例", col=c("green", "red"))

3、描述性统计分析

泰坦尼克号数据集分析r语言,深入解析泰坦尼克号数据集,R语言视角下的灾难史实

图片来源于网络,如有侵权联系删除

为了进一步了解数据集,我们可以计算一些统计量。

计算平均年龄
mean_age <- mean(data$Age)
print(paste("平均年龄:", mean_age))
计算年龄的中位数
median_age <- median(data$Age)
print(paste("年龄中位数:", median_age))
计算最高票价
max_fare <- max(data$Fare)
print(paste("最高票价:", max_fare))
计算最低票价
min_fare <- min(data$Fare)
print(paste("最低票价:", min_fare))

4、生存率分析

我们可以通过分析不同变量与生还率之间的关系,来揭示灾难背后的原因。

乘客等级与生还率
table(data$Pclass, data$Survived)
性别与生还率
table(data$Sex, data$Survived)
年龄与生还率
table(data$Age, data$Survived)
船票价格与生还率
table(data$Fare, data$Survived)

5、逻辑回归分析

为了建立生还率的预测模型,我们可以使用逻辑回归。

构建逻辑回归模型
model <- glm(Survived ~ Pclass + Sex + Age + SibSp + Parch + Fare, data=data, family=binomial)
查看模型摘要
summary(model)
预测生还率
predict_prob <- predict(model, type="response")
table(Survived, round(predict_prob))

通过R语言对泰坦尼克号数据集的分析,我们发现乘客等级、性别、年龄、船票价格等因素与生还率之间存在显著关系,在灾难发生时,我们应该关注这些因素,以最大限度地减少人员伤亡。

本文的分析结果也提醒我们,在现实生活中,要时刻关注各种风险,提高安全意识,以避免类似的悲剧再次发生。

黑狐家游戏
  • 评论列表

留言评论